您的位置:首页 > 运维架构 > 网站架构

spark streaming广告点击系统需求分析与技术架构

2017-01-23 14:06 513 查看
广告点击系统实时分析:

广告来自于网站或者移动App等,广告需要设定在具体的广告位,当用户点击广告的时候,一般都会通过JavaScript、Ajax或者Socket往后台发送点击的日志数据,在这里我们是要基于Spark Streaming做实时在线统计,那么数据就需要放进消息系统(Kafka)中,我们的Spark Streaming应用程序就会去Kafka中Pull数据过来进行计算和消费,并把计算偶的数据放入到持久化系统中(MySQL);

广告点击系统实时分析的意义:因为可以在线实时的看见广告的投放效果,就为广告的更加规模的投入和调整打下的坚实的基础,从而为公司带来最大化的经济回报;

核心需求:
1,实时黑名单动态过滤出有效的用户广告点击行为;因为黑名单用户可能随时出现,所以需要动态更新;
2,在线计算广告点击流量;
3,Top3 热门广告;
4,每个广告的流量趋势;
5,广告点击用户的区域分布分析;
6,最近一分钟的广告点击量;‘
7,整个广告点击Spark Streaming处理程序7*24小时的运行;

数据格式:
时间、用户、广告、地点等

技术细节:
在线计算用户点击的次数分析、屏蔽IP等
使用updateStateByKey或者mapWithState进行不同地区广告点击排名的计算;
Spark Streaming+Spark SQL+Spark Core等综合分析数据;
使用Window类型的操作;
高可用和性能调优
流量趋势 一般会结合DB等;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark
相关文章推荐