使用awk对广告数据中bid、imp中的ip做运营商分类统计
2017-07-14 16:52
330 查看
经验:
1. 数据量较大的情况下使用shell脚本直接做数据的分类统计处理更方便
在对广告日志中的ip做了运营商识别后,还有最后一步就是需要分类统计这些运营商的分布信息,刚好最近粗浅地学习了shell awk,然后想要使用shell awk对文本进行统计分析(实际上是用exccel做countif电脑直接死翘翘)
文本文件字段长这样
列信息分别是bid_ip,bid_company, imp_ip, imp_company
目标是:统计bid_comapny,imp_company里面分别的分类统计
解决方法:
awk ‘{s[$2] +=1} END {for(iin s){print i, s[i] }}’ ip_company.txt
awk ‘{s[$4] +=1} END {for(iin s){print i, s[i] }}’ ip_company.txt
1. 数据量较大的情况下使用shell脚本直接做数据的分类统计处理更方便
在对广告日志中的ip做了运营商识别后,还有最后一步就是需要分类统计这些运营商的分布信息,刚好最近粗浅地学习了shell awk,然后想要使用shell awk对文本进行统计分析(实际上是用exccel做countif电脑直接死翘翘)
文本文件字段长这样
列信息分别是bid_ip,bid_company, imp_ip, imp_company
目标是:统计bid_comapny,imp_company里面分别的分类统计
解决方法:
awk ‘{s[$2] +=1} END {for(iin s){print i, s[i] }}’ ip_company.txt
awk ‘{s[$4] +=1} END {for(iin s){print i, s[i] }}’ ip_company.txt
相关文章推荐
- 使用Python实现子区域数据分类统计
- 使用hadoop实现ip地理位置统计~ip归属地和运营商
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用MapReduce计算框架统计CDN日志IP数、流量等数据
- 使用awk + sort做数据统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计
- 使用Python实现子区域数据分类统计