使用PIG统计来访IP(多图版)
2013-06-10 09:55
239 查看
启动hadoop,启动pig:
将本地文件拷贝到hdfs中:
载入txt文件,通过空格作为分隔符,取得第一个字段ip写入内存中A表:
通过dump查看A表内容:
根据ip分组A表得到Grouped_A表,并使用DESCRIBE查看Grouped_A表结构,我们发现Grouped_A 表第一个Field名叫group,并不叫ip:
通过dump查看Grouped_A内容:
使用FOREACH语句生成result表,并通过DESCRIBE查看result表结构。注意:GENERATE 后指定的Field名必须要和 FOREACH 后的表中的 Field名对应,如此处第一个Filed是group,即Grouped_A中第一个Field的名称:
通过dump查看result表的内容,正确:
将内存中的result存储到hdfs中:
提示存储成功:
在hdfs中查看文件内容:
将本地文件拷贝到hdfs中:
载入txt文件,通过空格作为分隔符,取得第一个字段ip写入内存中A表:
通过dump查看A表内容:
根据ip分组A表得到Grouped_A表,并使用DESCRIBE查看Grouped_A表结构,我们发现Grouped_A 表第一个Field名叫group,并不叫ip:
通过dump查看Grouped_A内容:
使用FOREACH语句生成result表,并通过DESCRIBE查看result表结构。注意:GENERATE 后指定的Field名必须要和 FOREACH 后的表中的 Field名对应,如此处第一个Filed是group,即Grouped_A中第一个Field的名称:
通过dump查看result表的内容,正确:
将内存中的result存储到hdfs中:
提示存储成功:
在hdfs中查看文件内容:
相关文章推荐
- PIG统计来访IP
- 使用Spark和Pig统计每秒钟微博数量
- pig简单案例统计每个ip的访问次数
- 使用MapReduce计算框架统计CDN日志IP数、流量等数据
- 使用shell统计ip的流量
- 使用hadoop实现IP个数统计~并将结果写入数据库
- 使用IPTABLES实现对特定IP, 3ff8 端口流量的精确统计
- 统计来访ip的次数,及输出来访次数大于10000的IP
- 使用python 分析统计nginx访问日志ip次数并且排序
- 使用awk对广告数据中bid、imp中的ip做运营商分类统计
- 使用hadoop实现ip地理位置统计~ip归属地和运营商
- 使用python批量导入txt导入excel表格(公司电脑设备ip和人员统计)
- 使用IPTABLES实现对特定IP,端口流量的精确统计
- 啊江 统计IP.MDB的使用
- 使用Winpcap进行IP数据包统计
- 用shell统计局域网内的以用IP+MAC地址和未使用的IP
- 海量数据统计:海量日志提取最常访问IP,最常使用的query
- shell 检查网段内的IP使用情况,并进行统计
- windows下使用netstat统计tcp、ip、端口的数量统计
- 水晶报表分组,统计,求和,sum()函数使用