500万条微博数据来源分析
2017-05-20 21:28
197 查看
最近项目不是特别忙,想做一些微博方面的分析和处理工作,如果自己现爬取微博数据,积累数据比较慢,恰好看到北理工张华平老师分享的500万条微博数据,直接借用他的数据分析。下载地址是:http://www.nlpir.org/?action-viewnews-itemid-299
因为解压之后的文件较大,足有2.1G,并且对格式不是很清楚,直接打开也无法打开,于是先用文件分割工具将真格文件分割成多个较小的文件,了解好数据格式后采用Python读取数据并插入到MySQL数据库中。微博数据存放于数据库主要考虑这些数据还可以做其他方面的分析研究。
读取数据库中微博来源字段
统计每一条微博来源,存放于Dict中,计算相同的数目
对字典中的内容根据value由高到低排序
最终的统计分析效果:
因为解压之后的文件较大,足有2.1G,并且对格式不是很清楚,直接打开也无法打开,于是先用文件分割工具将真格文件分割成多个较小的文件,了解好数据格式后采用Python读取数据并插入到MySQL数据库中。微博数据存放于数据库主要考虑这些数据还可以做其他方面的分析研究。
读取数据库中微博来源字段
统计每一条微博来源,存放于Dict中,计算相同的数目
对字典中的内容根据value由高到低排序
最终的统计分析效果:
相关文章推荐
- 500万条微博数据来源分析
- 门户微博年度数据分析
- Android Camera 系统架构源码分析(4)---->Camera的数据来源及Camera的管理
- 数据分析网站-竞品分析数据来源
- 战略性情绪分析的5大数据来源
- 门户微博年度数据分析
- 项目开发流程,以及什么是数据分析平台,再者为什么要做数据分析平台,数据来源,数据处理流程
- 微博数据调研对比分析
- OD分析被调试进程的数据来源
- 陈老师撕B志玲姐姐的热门微博数据分析
- galler3d的源码分析——数据来源
- 教你如何做简单的数据分析--转载微博
- 微博特征与行为的大数据挖掘分析
- 618电商大促微博营销效果数据分析
- 流量来源分析 0801 0810 0820 流量数据重跑
- ITTC数据挖掘平台介绍(三) 微博社团和传播分析
- “数据分析”如何作用于“用户研究”?--转载微博
- MapReduce分析明星微博数据