您的位置:首页 > 其它

性能指标之资源指标-内存-内存泄漏为什么不易判断

2017-03-20 09:49 225 查看


内存泄漏为什么不容易判断

在性能问题里面内存有没有泄露、如果有泄露是哪里泄露了这两个问题是非常难判断和定位的。甚至有厂商对内存是否健康的评判就是:下次系统重启之前,应用能正常运行。换句话说,有内存泄露找不出来也没关系,定期重启一下服务器,而且在生产环境,的确有些企业是这么干的。

CPU如果利用率异常,可以查哪个进程中的哪个函数占用CPU多,相应的,内存也可以查哪个进程占内存多。为什么内存问题不像CPU问题那么容易定位?

内存泄露是指使用内存完成后没有释放,内存增长并不能分辨增长出来的内存是进程真正要用的,还是进程泄露出来的。而CPU的占用是瞬时的、确定的,不存在某个进程申请了CPU占着不用的情况。

在一个讨论组里,有人提问:对一个基于Java的Web系统进行压力测试,如果虚拟用户数从峰值下滑的同时,内存占用率却保持在峰值不变,是否能得出Java程序存在内存泄露的问题?

回答是否定的,原因如下:

首先,内存占用率指的是什么内存的占用率

在不同的OS上有不同的内存管理机制,比如AIX上,我们最关注是计算内存,但如果内存利用率指的是计算内存+非计算内存的话,即使内存占用率上升也说明不了太多问题。再比如Linux上,我们最关注是active内存,如果内存利用率指的是active+buffer+cache,即使内存占用率上升也说明不了太多问题。

第二,其他进程的干扰

操作系统上运行的进程千千万,内存不下降,可能是其他应用/系统进程对内存的使用,应具体分辨是哪个进程占据了内存。因此考察是否有内存泄露应关注的是指定进程有没有内存增长,这样比较容易排除干扰。不过,查看进程的Data Segment也只能查看这个进程使用的一部分内存,而这个进程间使用的Shared Memory Segment则不在这个指标中,但同样需要关注。

第三,进程池的原因

假如只关注计算内存(AIX),如果服务端的应用是一个100个进程的进程池,应用刚启动的时候没有客户端的连接进来,因此没有启动任何进程,随着客户连接的增多,100个进程统统启动,并常驻内存;再假如这些进程使用的内存是分配好不变的,那么内存占用率保持在峰值不变,是很正常的表现。

CICS里面也有进程常驻内存的概念。常驻内存后,进程不会掉下去,因此没有创建、销毁进程的开销。

第四,JVM内存管理的原因

如果不是Java程序,内存不下降甚至内存上升,也有上述的多种原因,何况这是Java程序,存在一个JVM内存管理机制的原因。

我们曾经遇到这样一个案例。对某Linux服务器上的某应用进行压力测试,在一周的测试过程中,发现内存不断增加。尽管服务器上每天定时清理内存(如下),但总趋势仍然是内存增长。



备注:drop_caches是清理无用的cache,对于dirty状态的是不清理的,直到dirty的内存被写入磁盘。但如果用sync操作把dirty的内存flush到磁盘中,后续的drop_caches将释放更多的内存。

后续我们就发现,这是JVM内存管理机制造成的内存泄露假象。该系统在测试过程中Java full GC(全量垃圾回收)没有被调起,老年代的内存没法被释放。虽然应用使用的内存并没有超过JVM设定的heap大小,但从Linux内存监控的指标上看,active内存是不断增加的。

为什么full GC没有被调起呢?这个场景下,老年代内存的增长会非常缓慢,几天内都不会达到触发full GC的标准,以致出现内存使用量不断增长不回收的现象。并且,这个Java应用是一个独立的Java程序,并没有运行在应用中间件上,因此没有中间件帮它做合理的GC策略,而应用本身也没有去调起full GC。

后经调整应用,主动调起full GC,内存增长问题得到解决。

第五,本应用其他逻辑的干扰

也许这个应用是个接收客户端数据报送并进行ETL处理的程序,服务端的应用在收到客户端的数据后,开始启动其他进程/线程/模块去做后续处理,后续处理需要分配内存。

 

继续最初的问题,回到那个基于Java的Web系统,如果虚拟用户数从峰值下滑到0,内存占用率却继续上扬,是否能得出Java程序存在内存泄露的问题?

回答仍然是否,可能的原因还是上面那几条。

总而言之,内存泄露是非常难判断的事,需要长时间的测试才能得到猜测性结论。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐