500万条微博数据来源分析
2016-02-01 10:40
274 查看
最近项目不是特别忙,想做一些微博方面的分析和处理工作,如果自己现爬取微博数据,积累数据比较慢,恰好看到北理工张华平老师分享的500万条微博数据,直接借用他的数据分析。下载地址是:http://www.nlpir.org/?action-viewnews-itemid-299
因为解压之后的文件较大,足有2.1G,并且对格式不是很清楚,直接打开也无法打开,于是先用文件分割工具将真格文件分割成多个较小的文件,了解好数据格式后采用Python读取数据并插入到MySQL数据库中。微博数据存放于数据库主要考虑这些数据还可以做其他方面的分析研究。
读取数据库中微博来源字段
统计每一条微博来源,存放于Dict中,计算相同的数目
对字典中的内容根据value由高到低排序
最终的统计分析效果:
因为解压之后的文件较大,足有2.1G,并且对格式不是很清楚,直接打开也无法打开,于是先用文件分割工具将真格文件分割成多个较小的文件,了解好数据格式后采用Python读取数据并插入到MySQL数据库中。微博数据存放于数据库主要考虑这些数据还可以做其他方面的分析研究。
读取数据库中微博来源字段
统计每一条微博来源,存放于Dict中,计算相同的数目
对字典中的内容根据value由高到低排序
最终的统计分析效果:
相关文章推荐
- 【CF应用开发大赛】微博社交简历
- 微博回应“用户信息被出售”事件:已上报司法机关
- 我是运营,我没有假期
- [网络资讯]新浪微博新版三栏布局开放公测
- 数据分析的3大作用:解决生活问题、降低被误导概率、职场发展需要
- 开始我觉得新浪微博傻,现在才慢慢明白新浪微博的高瞻远瞩
- jQuery+PHP+ajax实现微博加载更多内容列表功能
- js实现仿微博滚动显示信息的效果
- nodejs开发微博实例
- iOS开发之路--微博“更多”页面
- js实现将选中内容分享到新浪或腾讯微博
- JavaScript实现仿新浪微博大厅和腾讯微博首页滚动特效源码
- js仿微博实现统计字符和本地存储功能
- 基于js实现微信发送好友如何分享到朋友圈、微博
- 基于python编写的微博应用
- 百万级别知乎用户数据抓取与分析之PHP开发
- php新浪微博登录接口用法实例
- PHP+Mysql+jQuery实现发布微博程序 php篇
- Java使用新浪微博API开发微博应用的基本方法
- java实现的新浪微博分享代码实例