北京日志挖掘的总结
2012-09-12 15:57
218 查看
使用HTLOAD将分布在各个节点的海量原始日志采集及传送到移动大云中的分布式文件系统中。由于日志是实时生成的,所以要采用HTLOAD的模式二来采集日志。
原始日志的类型分为:新闻、图片、新闻、网页、视频、社区、时评、其它页面、推荐模块。
在原始日志模型的基础上,利用PDM对各类日志进行转换、合并、清洗,生成五类中间数据。
五类中间数据:searchrank、view、other、click及我的盘古。
把五类中间数据作为参数,跑16个指标数据。
把统计结果导入到inforbright数据仓库中。
通过调用存储过程来展示统计结果。
原始日志的类型分为:新闻、图片、新闻、网页、视频、社区、时评、其它页面、推荐模块。
在原始日志模型的基础上,利用PDM对各类日志进行转换、合并、清洗,生成五类中间数据。
五类中间数据:searchrank、view、other、click及我的盘古。
把五类中间数据作为参数,跑16个指标数据。
把统计结果导入到inforbright数据仓库中。
通过调用存储过程来展示统计结果。
相关文章推荐
- 黑马66期Android_智慧北京_学习总结
- 《编程珠玑》开篇题解析,session问题,日志总结
- MySQL 中的重做日志,回滚日志以及二进制日志的简单总结
- 日志文件入侵总结
- 总结数据挖掘预测分类中的样本筛选和特征处理
- 日志挖掘和基于时间点的克隆恢复
- SQL Server日志文件总结
- 数据挖掘150道试题总结
- [经验总结]零九年六月北京之行总结
- 北京第二次面试录音总结
- 2016数据挖掘面试总结
- R语言数据挖掘相关包总结-转帖
- 看懂信息检索和网络数据挖掘领域论文的必备知识总结
- 机器学习&数据挖掘知识点大总结
- 数据分析、数据挖掘、机器学习实习面经总结
- 数据挖掘算法总结-贝叶斯算法
- Python学习日志(第3篇)——关联规则挖掘(2)
- 对Windows下日志清除的一些总结
- C#日志系统 Log4net使用总结
- MySQL慢查询日志总结