您的位置:首页 > 其它

awk数组命令经典生产实战应用拓展

2013-08-22 11:03 656 查看
四、awk数组命令生产实战拓展
4.1统计apache日志单ip访问请求数排名(这个常用,考试也常考)假设apache日志内容access.log内容为:10.0.0.41 - - [03/Dec/2010:23:27:01 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -10.0.0.43 - - [03/Dec/2010:23:27:01 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -10.0.0.42 - - [03/Dec/2010:23:27:01 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -10.0.0.46 - - [03/Dec/2010:23:27:02 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -10.0.0.42 - - [03/Dec/2010:23:27:02 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -10.0.0.47 - - [03/Dec/2010:23:27:02 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -10.0.0.41 - - [03/Dec/2010:23:27:02 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -10.0.0.47 - - [03/Dec/2010:23:27:02 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -10.0.0.41 - - [03/Dec/2010:23:27:03 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -10.0.0.46 - - [03/Dec/2010:23:27:03 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -

4.1.1 给出3种解决方案

法一:[root@oldboy /]# awk '{++S[$1]} END {for (oldboy in S) print oldboy ,S[oldboy]}' access.log |sort -rn -k210.0.0.41 310.0.0.47 210.0.0.46 210.0.0.42 210.0.0.43 1#提示 $1为第一个域的内容。-k2 为对第二个字段排序,即对数量排序。2[root@oldboy /]# awk '{print $1}' access.log|sort|uniq -c |sort -rn -k13 10.0.0.412 10.0.0.472 10.0.0.462 10.0.0.421 10.0.0.43提示:这个方法是容易想到的简单易用的方法,对于大多数同学来说,此法其实更适合大家,awk数组的方法看起来好,实际上对于初级运维来来说有点难度,经常记不住。3[root@oldboy /]# sed's/- -.*$//g' access.log|sort|uniq -c|sort -rn -k13 10.0.0.41 2 10.0.0.47 2 10.0.0.46 2 10.0.0.42 1 10.0.0.43 提示:sed管道后的第一个sort是让所有一样的IP挨着,因为uniq -c只能对相邻的IP行去重计数。此题的解答可以有10几种,前面的课程我们已经带大家细讲了,这里就不一一讲解了。

4.1.2统计apache日志单ip访问请求数排名价值何在?

解答:通过前面的命令,我们可以找到什么IP的访问apache比较频繁,一般单个IP访问数量过百,就值得怀疑了,如果短时间内上万PV访问,说明就不正常了,可以采取相应的处理手段,比如封掉此IP,此法要慎重,否则,可能会有误封问题,因为,国内的大多数公司还是NAT上网的,出口一个IP。

4.2 统计服务器当前单IP连接数最大的IP地址前十

提示:这个命令可以查出遭受DOS***的客户端IP地址。待处理内容如下:netstat -n >test.log的结果:Active Internet connections (w/o servers)Proto Recv-Q Send-Q Local AddressForeign AddressStatetcp00 124.123.3.79:80219.85.194.23:12004SYN_RECVtcp00 124.123.3.77:80183.8.74.57:3276SYN_RECVtcp00 124.123.3.77:80124.236.0.214:63191SYN_RECVtcp00 124.123.3.77:80121.31.42.148:2338TIME_WAITtcp01023 124.123.3.77:8061.178.184.222:62683FIN_WAIT1tcp00 124.123.3.77:80222.79.242.74:7416TIME_WAITtcp04839 124.123.3.77:80121.31.42.148:30638FIN_WAIT1tcp00 124.123.3.77:80183.10.154.60:37282TIME_WAITtcp01 124.123.3.77:8059.49.174.176:26913CLOSINGtcp00 124.123.3.77:80121.31.42.148:1787TIME_WAITtcp0174 124.123.3.77:80183.8.74.57:1165CLOSING

4.2.1 问题解决方案

[root@OLDBOY ~]# awk-F '[ :]+' '{++S[$6]} END {for (a in S) print a ,S[a]}' test.log |sort -rn -k2121.31.42.148 3183.8.74.57 2Foreign 161.178.184.222 159.49.174.176 1222.79.242.74 1219.85.194.23 1183.10.154.60 1124.236.0.214 1提示:1)结果中的字符等,你可以进一步过滤。2) 对于多分隔符匹配的用法大家可以参考老男孩的博文深入浅出三剑客之awk必杀技一例http://oldboy.blog.51cto.com/2561410/9507303)实际生产中,我们过滤出已经建立连接的状态ESTABLISHED,然后,应用上述命令处理,完整命令可能为:netstat -an|awk-F '[ :]+' '{++S[$6]} END {for (a in S) print a ,S[a]}'|sort -rn -k2

4.2.2 生产环境案例

[leo@LVS-1-1 ~]$ netstat -an|grep EST|awk '{print $5}'|cut -d : -f 1|grep -v "^$"|awk '{++ETT[$1]} END {for (oldboy in ETT) print "ip:"oldboy "-----",ETT[oldboy] ''}'|sort -rn -k2|head -10ip:220.181.125.69----- 51ip:121.9.222.164----- 38ip:121.9.222.158----- 38ip:121.9.222.156----- 38ip:121.9.222.161----- 36ip:121.9.222.160----- 32ip:121.9.222.159----- 32ip:121.9.222.162----- 31ip:61.163.7.200----- 29ip:115.193.163.61----- 27提示:这是早期的命令案例,我们看到命令虽然很简单,但是搞的很复杂。实际上可以用下面看起来简单,但是难度很大的命令替代之。netstat -an|grep EST|awk-F '[ :]+' '{++S[$6]} END {for (key in S) print "ip:"key"----->",S[key]}'|sort -rn -k2注意,这里过滤的是已经建立连接的的连接,即状态ESTABLISHED。

4.2.3 本案例解决的生产问题

netstat -an|grep EST|awk-F '[ :]+' '{++S[$6]} END {for (key in S) print "ip:"key"----->",S[key]}'|sort -rn -k2注意,这里过滤的是已经建立连接的的连接,即状态ESTABLISHED。对于命令结果中,单IP结尾的数大的,可以认为是不正常的访问。如 121.31.42.148 100 ,表示一个IP有100个连接一般来说可以怀疑不正常,当网站压力大时,可以考虑限制或封掉这些冒似非法IP,当然,也不排除,企业里多个用户用一个出口IP访问。壮士扼腕,有时也是必须的,否则,可能网站整体影响更大,甚至瘫痪。有时,各种搜索引擎的爬虫是很疯狂的,通过本例及上面的案例,我们可以再负载IO高时,能够进行临时应对,当然,这不是长久的方法,优化网络和服务器,部署大规模集群服务器才是较好的解决之道。

4.2.4 IDC机房带宽突然暴涨问题经典案例

http://oldboy.blog.51cto.com/2561410/909696
本文未完待续。更多博文内容:
本系列博文完整内容共5篇:

第一篇:详解linux netstat输出的网络连接状态信息
http://oldboy.blog.51cto.com/2561410/1184139
第二篇:庖丁解牛获取连接状态数的awk数组命令
http://oldboy.blog.51cto.com/blog/2561410/1184165
第三篇:awk数组命令经典生产实战应用拓展
http://oldboy.blog.51cto.com/blog/2561410/1184177
第四篇:老男孩培训第八节课前awk考试题案例(门户面试题解答)
http://oldboy.blog.51cto.com/2561410/1184206
第五篇:linux生产服务器有关网络状态的优化措施(告一段落)
http://oldboy.blog.51cto.com/2561410/1184228

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  经典 统计 拓展