scala 编写 ip count 对apache 日志 IP 简单统计
2016-12-01 16:28
357 查看
对apache 日志 IP 简单统计
运行环境
centos6.5 jdk1.8 spark1.6 scala-2.10.6
创建新项目 没有scala-sdk 的可以点Create 安装scala SDK
引入本地的scala 目录 点击 Browse
引入spark1.6目录下的lib的jar包
日志格式如下:
ip - - [datetime] "....." status ....
编写代码如下:
输出:
(ip,count)
问题:
Spark 和 Scala 版本问题
我的用的spark2.0.x 和 scala-2.10.6 版本不对应
scala-2.10.6.tgz 与 spark-1.6.2-bin-hadoop2.6.tgz 对应
更多资讯关注公众号
运行环境
centos6.5 jdk1.8 spark1.6 scala-2.10.6
创建新项目 没有scala-sdk 的可以点Create 安装scala SDK
引入本地的scala 目录 点击 Browse
引入spark1.6目录下的lib的jar包
日志格式如下:
ip - - [datetime] "....." status ....
编写代码如下:
package z.test import org.apache.spark.{SparkConf, SparkContext} /** * Created by z . */ object IPCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("IPCount") val sc = new SparkContext(conf); val data = sc.textFile("file:///home/z/App/xxxx_access_apache.log") data.map{line=> val ip = line.split(" ")(0) (ip)}.map((_,1)).reduceByKey(_+_).collect().foreach(println(_)) sc.stop() } }
输出:
(ip,count)
问题:
Spark 和 Scala 版本问题
我的用的spark2.0.x 和 scala-2.10.6 版本不对应
scala-2.10.6.tgz 与 spark-1.6.2-bin-hadoop2.6.tgz 对应
更多资讯关注公众号
相关文章推荐
- AWK简单统计apache/nginx日志IP数
- 简单的 Apache 日志统计脚本
- 统计Apache或nginx日志里访问次数最多的IP
- (总结)统计Apache或Nginx访问日志里的独立IP访问数量的Shell
- 通过apache 访问日志access.log 统计IP 和每个地址访问的次数
- 从Apache的日志文件收集和提供统计数据(一个Python插件架构的简单实现)
- 统计Apache或nginx日志里访问次数最多的前十个IP
- 统计Apache或Nginx访问日志里的独立IP访问数量的Shell
- Shell 命令行统计 apache 网站日志访问IP以及IP归属地
- apache 统计日志访问IP数量
- 统计Apache或nginx日志里访问次数最多的前十个IP
- apache的日志管理和统计分析
- perl统计日志文件ip及数量
- 如何统计日志里面访问次数最多的IP
- shell统计Apache访问日志中指定页面的PV、UV等指标
- 简单网站统计功能的实现 PV IP 真实访客数(UV)
- NAT负载均衡方式,apache如何在日志中记录客户端IP
- 简单分享apache 封 IP 的方法
- nginx做负载时后端apache.nginx日志真实client ip
- nginx 反向代理使apache或者tomcat日志中无法获取真实IP 的 X-Forwarded-For 参数的设定