论 内核 OOM(out of memery) 引发的 程序被 killed
2015-12-03 09:44
330 查看
一、 描述
自己的代码 ,在平时环境中跑着没有问题的,但是today 测试在跑压力的时候 发现程序跑个 5min 左右就自己断了,程序没有产生core文件,而是显示的 是 killed ?
二、可能原因
1、 别人也在用这台机器 手动kill掉 了。
2、程序自己被未知 原因 干掉了
三、寻索
1、首先 确认了 原因一不成立,根本没人动过
2、其次 研究原因2
假设 此处 我们的 可执行程序 为 DMS , 使用 pidof DMS 得到 进程id 2066
使用 top -H -p 2066 观察 程序 被kill 时候 占据的 内存 以及 io状态 或者查看dmesg信息 搜索 关于killed 的信息 ,可惜没有找到
由于 当时 情况 数据 未能截图 ,现 任意 抓取 一截图
观察到 在 程序 断的时刻 wa 大概为 58%左右,说明io等待 非常严重, 其次 在%MEM (程序占据的物理内存百分比) 也非常高,
由此 怀疑 是不是 程序内存泄露 导致的 该问题。
3、 查看自己的代码 果然 发现了一处 内存泄露的 地方,后经过修改, 程序没断。
四 、验证上述
c代码如下 test.c
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
int main()
{
while(1)
{
char *p = (char *) malloc(1000000);
if(NULL == p){
printf("break\n");
break;}
}
}
gcc test.c -o test
./test执行
可以清晰的看到 程序在mem为79% 的时候被杀掉了,不一定占用了 100% 物理内存
五、 基础 知识 温习
内核 OOM:
内存不足触发了Linux内核的OOM机制
Linux 下有个特性叫作 OOM killer(Out of Memory),从字面的意思可以看出和内存溢出相关,当内存耗尽时,该问题就会出现。在Linux2.6.内核中,当该功能打开后,在内存耗尽时,会根据一定的值计算出一个合适的用户空间的进程给kill掉,以便释放更多的内存,保证整个系统的稳定运行。在系统的日志中通常会有下面的打印日志:Out
of memory: kill process 959 (sshd) score 55 or a child。
【详情 可以参考: Linux内核OOM机制分析】
Cpu0 : 1.0%us, 3.0%sy, 0.0%ni, 96.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu1 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
这里对us,sy,ni,id,wa,hi,si,st进行分别说明:
us 列显示了用户模式下所花费 CPU 时间的百分比。
us的值比较高时,说明用户进程消耗的cpu时间多,但是如果长期大于50%,需要考虑优化用户的程序。
sy 列显示了内核进程所花费的cpu时间的百分比。
这里us + sy的参考值为80%,如果us+sy 大于 80%说明可能存在CPU不足。
ni 列显示了用户进程空间内改变过优先级的进程占用CPU百分比。
id 列显示了cpu处在空闲状态的时间百分比。
wa 列显示了IO等待所占用的CPU时间的百分比。
这里wa的参考值为30%,如果wa超过30%,说明IO等待严重,这可能是磁盘大量随机访问造成的,也可能磁盘或者磁盘访问控制器的带宽瓶颈造成的(主要是块操作)。
//这个wa和vmstat中的wa是相同含义
hi 硬件中断占用CPU
si 软件中断占用CPU
st 丢失时间占用CPU
多核CPU监控
在top基本视图中,按键盘数字“1”,可监控每个逻辑CPU的状况。
统计信息区
前五行是系统整体的统计信息。第一行是任务队列信息,同 uptime 命令的执行结果。其内容如下:
第二、三行为进程和CPU的信息。当有多个CPU时,这些内容可能会超过两行。内容如下:
最后两行为内存信息。内容如下:
统计信息区域的下方显示了各个进程的详细信息。首先来认识一下各列的含义。
默认情况下仅显示比较重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、%CPU、%MEM、TIME+、COMMAND 列。可以通过下面的快捷键来更改显示内容。
更改显示内容
通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表,按 a-z 即可显示或隐藏对应的列,最后按回车键确定。
按 o 键可以改变列的显示顺序。按小写的 a-z 可以将相应的列向右移动,而大写的 A-Z可以将相应的列向左移动。最后按回车键确定。
按大写的 F 或 O 键,然后按 a-z 可以将进程按照相应的列进行排序。而大写的 R 键可以将当前的排序倒转。
语法
top [-] [d] [p] [q] [c] [C] [S] [s]
参数
d 指定每两次屏幕信息刷新之间的时间间隔。当然用户可以使用s交互命令来改变之。
p 通过指定监控进程ID来仅仅监控某个进程的状态。
q 该选项将使top没有任何延迟的进行刷新。如果调用程序有超级用户权限,那么top将以尽可能高的优先级运行。
S 指定累计模式。
s 使top命令在安全模式中运行。这将去除交互命令所带来的潜在危险。
i 使top不显示任何闲置或者僵死进程。
c 显示整个命令行而不只是显示命令名。
下面介绍在top命令执行过程中可以使用的一些交互命令。
从使用角度来看,熟练的掌握这些命令比掌握选项还重要一些。
这些命令都是单字母的,如果在命令行选项中使用了s选项,则可能其中一些Linux命令会被屏蔽掉。
Ctrl+L 擦除并且重写屏幕。
h或者? 显示帮助画面,给出一些简短的命令总结说明。
k 终止一个进程。系统将提示用户输入需要终止的进程PID,以及需要发送给该进程什么样的信号。一般的终止进程可以使用15信号;如果不能正常结束那就使用信号9强制结束该进程。默认值是信号15。在安全模式中此命令被屏蔽。
i 忽略闲置和僵死进程。这是一个开关式命令。
q 退出程序。
r 重新安排一个进程的优先级别。系统提示用户输入需要改变的进程PID以及需要设置的进程优先级值。输入一个正值将使优先级降低,反之则可以使该进程拥有更高的优先权。默认值是10。
s 改变两次刷新之间的延迟时间。系统将提示用户输入新的时间,单位为s。如果有小数,就换算成m s。输入0值则系统将不断刷新,默认值是5 s。需要注意的是如果设置太小的时间,很可能会引起不断刷新,从而根本来不及看清显示的情况,而且系统负载也会大大增加。
f或者F 从当前显示中添加或者删除项目。
o或者O改变显示项目的顺序。
l 切换显示平均负载和启动时间信息。
m 切换显示内存信息。
t 切换显示进程和CPU状态信息。
c 切换显示命令名称和完整命令行。
M 根据驻留内存大小进行排序。
P 根据CPU使用百分比大小进行排序。
T 根据时间/累计时间进行排序。
W 将当前设置写入~/.toprc文件中。这是写top配置文件的推荐方法。
Shift+M 可按内存占用情况进行排序。
自己的代码 ,在平时环境中跑着没有问题的,但是today 测试在跑压力的时候 发现程序跑个 5min 左右就自己断了,程序没有产生core文件,而是显示的 是 killed ?
二、可能原因
1、 别人也在用这台机器 手动kill掉 了。
2、程序自己被未知 原因 干掉了
三、寻索
1、首先 确认了 原因一不成立,根本没人动过
2、其次 研究原因2
假设 此处 我们的 可执行程序 为 DMS , 使用 pidof DMS 得到 进程id 2066
使用 top -H -p 2066 观察 程序 被kill 时候 占据的 内存 以及 io状态 或者查看dmesg信息 搜索 关于killed 的信息 ,可惜没有找到
由于 当时 情况 数据 未能截图 ,现 任意 抓取 一截图
观察到 在 程序 断的时刻 wa 大概为 58%左右,说明io等待 非常严重, 其次 在%MEM (程序占据的物理内存百分比) 也非常高,
由此 怀疑 是不是 程序内存泄露 导致的 该问题。
3、 查看自己的代码 果然 发现了一处 内存泄露的 地方,后经过修改, 程序没断。
四 、验证上述
c代码如下 test.c
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
int main()
{
while(1)
{
char *p = (char *) malloc(1000000);
if(NULL == p){
printf("break\n");
break;}
}
}
gcc test.c -o test
./test执行
可以清晰的看到 程序在mem为79% 的时候被杀掉了,不一定占用了 100% 物理内存
五、 基础 知识 温习
内核 OOM:
内存不足触发了Linux内核的OOM机制
Linux 下有个特性叫作 OOM killer(Out of Memory),从字面的意思可以看出和内存溢出相关,当内存耗尽时,该问题就会出现。在Linux2.6.内核中,当该功能打开后,在内存耗尽时,会根据一定的值计算出一个合适的用户空间的进程给kill掉,以便释放更多的内存,保证整个系统的稳定运行。在系统的日志中通常会有下面的打印日志:Out
of memory: kill process 959 (sshd) score 55 or a child。
【详情 可以参考: Linux内核OOM机制分析】
Cpu0 : 1.0%us, 3.0%sy, 0.0%ni, 96.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu1 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
这里对us,sy,ni,id,wa,hi,si,st进行分别说明:
us 列显示了用户模式下所花费 CPU 时间的百分比。
us的值比较高时,说明用户进程消耗的cpu时间多,但是如果长期大于50%,需要考虑优化用户的程序。
sy 列显示了内核进程所花费的cpu时间的百分比。
这里us + sy的参考值为80%,如果us+sy 大于 80%说明可能存在CPU不足。
ni 列显示了用户进程空间内改变过优先级的进程占用CPU百分比。
id 列显示了cpu处在空闲状态的时间百分比。
wa 列显示了IO等待所占用的CPU时间的百分比。
这里wa的参考值为30%,如果wa超过30%,说明IO等待严重,这可能是磁盘大量随机访问造成的,也可能磁盘或者磁盘访问控制器的带宽瓶颈造成的(主要是块操作)。
//这个wa和vmstat中的wa是相同含义
hi 硬件中断占用CPU
si 软件中断占用CPU
st 丢失时间占用CPU
top - 10:37:35 up 25 days, 17:29, 1 user, load average: 0.00, 0.02, 0.05 Tasks: 104 total, 1 running, 103 sleeping, 0 stopped, 0 zombie Cpu(s): 0.1%us, 0.0%sy, 0.0%ni, 99.9%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st Mem: 2067816k total, 2007264k used, 60552k free, 73752k buffers Swap: 524284k total, 315424k used, 208860k free, 625832k cached PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 17827 root 20 0 700m 218m 13m S 1.7 10.8 0:42.81 java 4517 apache 20 0 1240m 359m 3884 S 0.7 17.8 20:44.91 java 2650 root 20 0 25588 2204 1224 S 0.3 0.1 12:43.61 snmpd 18076 root 20 0 2456 928 712 R 0.3 0.0 0:00.27 top 32645 root 20 0 798m 247m 3580 S 0.3 12.3 171:19.10 java 1 root 20 0 2208 100 84 S 0.0 0.0 0:31.34 init 2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd 3 root 20 0 0 0 0 S 0.0 0.0 0:09.87 ksoftirqd/0 5 root 20 0 0 0 0 S 0.0 0.0 0:00.03 kworker/u:0
多核CPU监控
在top基本视图中,按键盘数字“1”,可监控每个逻辑CPU的状况。
统计信息区
前五行是系统整体的统计信息。第一行是任务队列信息,同 uptime 命令的执行结果。其内容如下:
10:37:35 | 当前时间 |
up 25 days, 17:29 | 系统运行时间,格式为时:分 |
1 user | 当前登录用户数 |
load average: 0.00, 0.02, 0.05 | 系统负载,即任务队列的平均长度。 三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。 |
Tasks: 104 total | 进程总数 |
1 running | 正在运行的进程数 |
103 sleeping | 睡眠的进程数 |
0 stopped | 停止的进程数 |
0 zombie | 僵尸进程数 |
Cpu(s): 0.1%us | 用户空间占用CPU百分比 |
0.0%sy | 内核空间占用CPU百分比 |
0.0%ni | 用户进程空间内改变过优先级的进程占用CPU百分比 |
99.9%id | 空闲CPU百分比 |
0.0%wa | 等待输入输出的CPU时间百分比 |
0.0% hi | |
0.0% si | |
0.0%st |
Mem: 2067816k total | 物理内存总量 |
2007264k used | 使用的物理内存总量 |
60552k free | 空闲内存总量 |
73752k buffers | 用作内核缓存的内存量 |
Swap: 524284k total | 交换区总量 |
315424k used | 使用的交换区总量 |
208860k free | 空闲交换区总量 |
625832k cached | 缓冲的交换区总量。 内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖, 该数值即为这些内容已存在于内存中的交换区的大小。 相应的内存再次被换出时可不必再对交换区写入。 |
进程信息区
统计信息区域的下方显示了各个进程的详细信息。首先来认识一下各列的含义。序号 | 列名 | 含义 |
a | PID | 进程id |
b | PPID | 父进程id |
c | RUSER | Real user name |
d | UID | 进程所有者的用户id |
e | USER | 进程所有者的用户名 |
f | GROUP | 进程所有者的组名 |
g | TTY | 启动进程的终端名。不是从终端启动的进程则显示为 ? |
h | PR | 优先级 |
i | NI | nice值。负值表示高优先级,正值表示低优先级 |
j | P | 最后使用的CPU,仅在多CPU环境下有意义 |
k | %CPU | 上次更新到现在的CPU时间占用百分比 |
l | TIME | 进程使用的CPU时间总计,单位秒 |
m | TIME+ | 进程使用的CPU时间总计,单位1/100秒 |
n | %MEM | 进程使用的物理内存百分比 |
o | VIRT | 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES |
p | SWAP | 进程使用的虚拟内存中,被换出的大小,单位kb。 |
q | RES | 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA |
r | CODE | 可执行代码占用的物理内存大小,单位kb |
s | DATA | 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb |
t | SHR | 共享内存大小,单位kb |
u | nFLT | 页面错误次数 |
v | nDRT | 最后一次写入到现在,被修改过的页面数。 |
w | S | 进程状态。 D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程 |
x | COMMAND | 命令名/命令行 |
y | WCHAN | 若该进程在睡眠,则显示睡眠中的系统函数名 |
z | Flags | 任务标志,参考 sched.h |
更改显示内容
通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表,按 a-z 即可显示或隐藏对应的列,最后按回车键确定。
按 o 键可以改变列的显示顺序。按小写的 a-z 可以将相应的列向右移动,而大写的 A-Z可以将相应的列向左移动。最后按回车键确定。
按大写的 F 或 O 键,然后按 a-z 可以将进程按照相应的列进行排序。而大写的 R 键可以将当前的排序倒转。
语法
top [-] [d] [p] [q] [c] [C] [S] [s]
参数
d 指定每两次屏幕信息刷新之间的时间间隔。当然用户可以使用s交互命令来改变之。
p 通过指定监控进程ID来仅仅监控某个进程的状态。
q 该选项将使top没有任何延迟的进行刷新。如果调用程序有超级用户权限,那么top将以尽可能高的优先级运行。
S 指定累计模式。
s 使top命令在安全模式中运行。这将去除交互命令所带来的潜在危险。
i 使top不显示任何闲置或者僵死进程。
c 显示整个命令行而不只是显示命令名。
下面介绍在top命令执行过程中可以使用的一些交互命令。
从使用角度来看,熟练的掌握这些命令比掌握选项还重要一些。
这些命令都是单字母的,如果在命令行选项中使用了s选项,则可能其中一些Linux命令会被屏蔽掉。
Ctrl+L 擦除并且重写屏幕。
h或者? 显示帮助画面,给出一些简短的命令总结说明。
k 终止一个进程。系统将提示用户输入需要终止的进程PID,以及需要发送给该进程什么样的信号。一般的终止进程可以使用15信号;如果不能正常结束那就使用信号9强制结束该进程。默认值是信号15。在安全模式中此命令被屏蔽。
i 忽略闲置和僵死进程。这是一个开关式命令。
q 退出程序。
r 重新安排一个进程的优先级别。系统提示用户输入需要改变的进程PID以及需要设置的进程优先级值。输入一个正值将使优先级降低,反之则可以使该进程拥有更高的优先权。默认值是10。
s 改变两次刷新之间的延迟时间。系统将提示用户输入新的时间,单位为s。如果有小数,就换算成m s。输入0值则系统将不断刷新,默认值是5 s。需要注意的是如果设置太小的时间,很可能会引起不断刷新,从而根本来不及看清显示的情况,而且系统负载也会大大增加。
f或者F 从当前显示中添加或者删除项目。
o或者O改变显示项目的顺序。
l 切换显示平均负载和启动时间信息。
m 切换显示内存信息。
t 切换显示进程和CPU状态信息。
c 切换显示命令名称和完整命令行。
M 根据驻留内存大小进行排序。
P 根据CPU使用百分比大小进行排序。
T 根据时间/累计时间进行排序。
W 将当前设置写入~/.toprc文件中。这是写top配置文件的推荐方法。
Shift+M 可按内存占用情况进行排序。
相关文章推荐
- 一幅图弄清DFT与DTFT,DFS的关系
- javaEE项目建立多个数据源并配置事务
- 搭建Ruby on rails开发环境
- ClassCastException深入分析
- 关于cgi、FastCGI、php-fpm、php-cgi
- 【iOS学习笔记】用collectionView解决大量button的性能问题
- asp.net简单实现单点登录(SSO)的方法
- Android图片适配
- 使用Gruntjs打包js
- 自定义控件其实很简单1/12
- C# DateTime转Json汇总
- Android Data Binding
- VS2013 快捷键乱掉如何修改回来
- wpf 根据当前控件,查找父窗口,调用父窗口的方法
- C语言 简单的冒泡排序
- You need to use a Theme.AppCompat theme (or descendant) with this activity解决方法
- kafka broker服务端优化参数详解
- HBase体系结构01(Catalog Tables)
- 非正常结束weblogic进程导致weblogic无法启动
- logback logback.xml常用配置详解(三) <filter>