您的位置:首页 > 其它

排错思路

2016-12-29 10:41 141 查看
1.服务器遇到故障如何排除? http://blog.jobbole.com/36375/必须先搞清楚故障的具体情况:o 故障的表现是什么?无响应?报错?o 故障是什么时候发现的?o 故障是否可重现?o 有没有出现的规律(比如每小时出现一次)o 最后一次对整个平台进行更新的内容是什么(代码、服务器等)?o 故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)?o 基础架构(物理的、逻辑的)的文档是否能找到?o 是否有监控平台可用? (比如Munin、Zabbix、 Nagios、 … 什么都可以)o 是否有日志可以查看?(日志管理工具比如Loggly、ELK、 Graylog…) w 、last、 history查看有哪些用户在线,做过哪些操作。 ps查看有哪些进程、分辨出哪些该有的和不该有的。 netstat查看相关端口。 free、 uptime 、top查看一下cpu、内存。 日志!2.服务器宕机了怎么办?针对服务器可能发生的宕机情况,我们肯定要先设立应急预案。财力允许的情况下,最好是为每一台服务器配备物理冗余。同步更新数据,故障发生及时切换。故障发生后,第一位是恢复业务,第二位是排查。首先,启动服务器,看是否能够登录,如果可以,可以通过如下方式进行检查。a、是否是应用程序导致内存溢出或者泄露,out of memory导致;b、是否是进程过多或者不断创建,耗尽资源导致;c、是否是数据库程序死锁,连接数过多导致;d、是否是应用程序异常导致;e、是否是流量负载过大导致;f、是否是遭受黑客入侵攻击导致;g、是否是误操作导致; 可以通过查看系统日志来查看是否有异常登录现象的发生。当然了,如果连登录都无法完成,或者通过如上的处理方法都没能处理,那么,您就联系客服人员进行排查。当然了,了解具体问题所在,也就不成问题了。 3、web访问慢的,如何定位问题解决?· 是否普遍较慢?检测先环节:单个浏览器的问题?电脑问题?电信运行商?· 查看服务器的同时连接数,是不是同时连接人数太多,已经超过服务器的正常负载。· 查看服务器的TCP连接情况,是不是被DDOS了。· 查看服务器的内存使用量,是不是某个应用出现问题,造成内存泄漏了。· 通过iostat、vmsta查看cpu的io,磁盘的读写速率。· 查看各种日志。· 数据库的链接情况。· 程序本身。层层检测,步步排查
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息