Hbase迎接电信TB级大数据洗礼之热点网站功能实践
2013-12-03 09:53
393 查看
在今年年初的时候联通王志军院长就Hadoop在电信行业的大数据应用谈了自己的经验,随着3G网络的发展中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的。那么在3G网络功能中上网冲浪占了很大的比例,去研究用户感兴趣的热点网站成为了行为分析中很有特点的一项功能,联通就可以根据这些网站信息推出增值服务,古人云:大浪淘沙始到金啊!
Hbase作为分布式的数据库集群是如何迎接大数据的洗礼呢!,我们之前使用的是Oracle数据库作为存储数据的基石,但当数据量迅猛上涨后许多的瓶颈马上就会呈现出来,大量的数据统计、分组、排序、过滤的操作对Oracle数据库性能真是一个不小的挑战,由于数据不能分布处理,数据的查询速度可想而知。现在我们使用了Hbase数据库就可以很好的解决上述的一系列问题。下面对如何实践设计“热点网站”功能给出了我的一些设想。
表设计:手机上网表 tel-net table 简称 t-n 表
ROW Key COLUMN+CELL
18977777777 column=msisdn:*#06#, timestamp=1351560318018, value=100
18977777777 column=msisdn:cellphone,timestamp=1351563680951, value=iphone-5
18977777777 column=sites:http, timestamp=1351560423739, value=www.dataguru.cn 登陆网站
18977777777 column=sites:name, timestamp=1351560476264, value=lianshuchengjin
18977777777 column=user:age, timestamp=1351560350911, value=28
18977777777 column=user:name, timestamp=1351560335833, value=leonarding
18866662222 column=msisdn:*#06#, timestamp=1351560560622, value=101
18866662222 column=msisdn:cellphone, timestamp=1351560540173, value=iphone-4
18866662222 column=sites:http, timestamp=1351560630783, value=www.dataguru.cn 登陆网站
18866662222 column=sites:name, timestamp=1351560664387, value=lianshuchengjin
18866662222 column=user:age, timestamp=1351560606783, value=26
18866662222 column=user:name, timestamp=1351560585193, value=sunev_yu
15911112222 column=msisdn:*#06#, timestamp=1351560873212, value=102
15911112222 column=msisdn:cellphone, timestamp=1351560851244, value=iphone-3
15911112222 column=sites:http, timestamp=1351562148765, value=www.itpub.net 登陆网站
15911112222 column=sites:name, timestamp=1351562171874, value=itpub
15911112222 column=user:age, timestamp=1351562118827, value=100
15911112222 column=user:name, timestamp=1351562102858, value=tigerfish
第一步:在一定时间范围内找到所有手机经常上网的网址。
第二步:在map-reduce程序中进行统计和排名(由于手机号就是随机型的因此可以均衡的打散到各个节点执行)。
第三步:汇总结果后,把排名前20的热点网站输出,运营商就可以找到这些热点网站进行合作推出更符合用户倾向的套餐,大把大把的敛money。
后续还可以开发:用户倾向性分析、TOPn大流量排名分析、用户行为分析等等诸如此类的功能。
欢迎大家一起积极讨论,共创Hbase美好未来
Hbase作为分布式的数据库集群是如何迎接大数据的洗礼呢!,我们之前使用的是Oracle数据库作为存储数据的基石,但当数据量迅猛上涨后许多的瓶颈马上就会呈现出来,大量的数据统计、分组、排序、过滤的操作对Oracle数据库性能真是一个不小的挑战,由于数据不能分布处理,数据的查询速度可想而知。现在我们使用了Hbase数据库就可以很好的解决上述的一系列问题。下面对如何实践设计“热点网站”功能给出了我的一些设想。
表设计:手机上网表 tel-net table 简称 t-n 表
ROW Key COLUMN+CELL
18977777777 column=msisdn:*#06#, timestamp=1351560318018, value=100
18977777777 column=msisdn:cellphone,timestamp=1351563680951, value=iphone-5
18977777777 column=sites:http, timestamp=1351560423739, value=www.dataguru.cn 登陆网站
18977777777 column=sites:name, timestamp=1351560476264, value=lianshuchengjin
18977777777 column=user:age, timestamp=1351560350911, value=28
18977777777 column=user:name, timestamp=1351560335833, value=leonarding
18866662222 column=msisdn:*#06#, timestamp=1351560560622, value=101
18866662222 column=msisdn:cellphone, timestamp=1351560540173, value=iphone-4
18866662222 column=sites:http, timestamp=1351560630783, value=www.dataguru.cn 登陆网站
18866662222 column=sites:name, timestamp=1351560664387, value=lianshuchengjin
18866662222 column=user:age, timestamp=1351560606783, value=26
18866662222 column=user:name, timestamp=1351560585193, value=sunev_yu
15911112222 column=msisdn:*#06#, timestamp=1351560873212, value=102
15911112222 column=msisdn:cellphone, timestamp=1351560851244, value=iphone-3
15911112222 column=sites:http, timestamp=1351562148765, value=www.itpub.net 登陆网站
15911112222 column=sites:name, timestamp=1351562171874, value=itpub
15911112222 column=user:age, timestamp=1351562118827, value=100
15911112222 column=user:name, timestamp=1351562102858, value=tigerfish
第一步:在一定时间范围内找到所有手机经常上网的网址。
第二步:在map-reduce程序中进行统计和排名(由于手机号就是随机型的因此可以均衡的打散到各个节点执行)。
第三步:汇总结果后,把排名前20的热点网站输出,运营商就可以找到这些热点网站进行合作推出更符合用户倾向的套餐,大把大把的敛money。
后续还可以开发:用户倾向性分析、TOPn大流量排名分析、用户行为分析等等诸如此类的功能。
欢迎大家一起积极讨论,共创Hbase美好未来
相关文章推荐
- 王家林的81门一站式云计算分布式大数据&移动互联网解决方案课程第八门课程:云计算分布式大数据HBase动手实践
- 使用magento eav数据模型为用户提供图片上传功能的实践
- 胖子哥的大数据之路(四)- VisualHBase功能需求框架
- 大数据查询——HBase读写设计与实践--转
- 我的博客网站开发3——博客首页功能实现之各排行版(阅读数,评论数,推荐数)的数据绑定
- ASP.NET MVC5网站开发之实现数据存储层功能(三)
- HBase在腾讯大数据的应用实践
- ASP.NET MVC5 网站开发实践(一) - 框架(续) 模型、数据存储、业务逻辑
- 从excel文件中获得数据,实现网站的批量查询数据功能
- python3实践-从网站获取数据(Carbon Market Data-BJ) (pandas,bs4)
- HDB V1.0.0 内存数据引擎Win平台测试数据_模拟移动电信话费计费功能
- 数据导入HBase最常用的三种方式及实践分析
- python3实践-从网站获取数据(Carbon Market Data-GD) (bs4/Beautifulsoup)
- 网站每日签到功能设计 hibernate数据层框架
- 数据导入HBase最常用的三种方式及实践分析
- hbase热点问题(数据倾斜)解决方案---rowkey散列和预分区设计
- 数据导入HBase最常用的三种方式及实践分析
- HBase 数据导入功能实现方式解释
- HBASE---数据存储实践