用Scrapy抓取豆瓣小组数据(三)
2013-04-22 12:33
465 查看
接着上篇博客《用Scrapy抓取豆瓣小组数据(三)》,/article/3497805.html
处理抓取的数据
我抓取了豆瓣一千多个小组的首页,获取的内容包括名称,成员数目,小组链接以及相关友情小组和推荐小组。Scrapy导出的数据格式可以是json/xml/csv等,我这边用了json格式,每个小组数据的格式如下:
由于是要进行网络分析,假设每个小组就是一个节点(vertex),如果任意两个小组是相关小组(通过RelativeGroups来判断),则两个节点相连接(edge)。所以处理脚本要做的事情,第一生成节点的列表,第二生成节点间的连接。要注意的是对抓取的的重复数据进行清理,并且保证每个连接两端的节点都是有效的。
偷懒用javascript处理了下,然后打印出一个gml格式的文件,用于下一步分析。 GML格式的非常简单,就是一个node列表加上edge列表。定义node时其实只有id是必填项,其他属性都可以自定义的。
节点越大说明小组的连接个数越多,颜色代表着不同的小组类型(用Gephi的自带算法分类的)。下面这张图这种我划出了4个不同的区域,代表着不同类型的小组,有人能猜到分别是什么类型的小组吗?可以告诉你是哪四种:蕾丝小组,Gay小组,手工小组,美容小组。
Have Fun~
处理抓取的数据
我抓取了豆瓣一千多个小组的首页,获取的内容包括名称,成员数目,小组链接以及相关友情小组和推荐小组。Scrapy导出的数据格式可以是json/xml/csv等,我这边用了json格式,每个小组数据的格式如下:{ "groupName": "\u5e2e\u52a9\u5927\u5c71\u91cc\u7684\u5b69\u5b50", "groupURL": "http://www.douban.com/group/16533/", "RelativeGroups": [ "http://www.douban.com/group/henisiben/", "http://www.douban.com/group/HOWPROJECT/", "http://www.douban.com/group/225202/", "http://www.douban.com/group/334177/", "http://www.douban.com/group/gesanghua/", "http://www.douban.com/group/J/", "http://www.douban.com/group/17551/", "http://www.douban.com/group/wutaishan/", "http://www.douban.com/group/72790/", "http://www.douban.com/group/ChindiaIndia/", "http://www.douban.com/group/74982/", "http://www.douban.com/group/119384/" ], "totalNumber": "5833" }
由于是要进行网络分析,假设每个小组就是一个节点(vertex),如果任意两个小组是相关小组(通过RelativeGroups来判断),则两个节点相连接(edge)。所以处理脚本要做的事情,第一生成节点的列表,第二生成节点间的连接。要注意的是对抓取的的重复数据进行清理,并且保证每个连接两端的节点都是有效的。
偷懒用javascript处理了下,然后打印出一个gml格式的文件,用于下一步分析。 GML格式的非常简单,就是一个node列表加上edge列表。定义node时其实只有id是必填项,其他属性都可以自定义的。
graph [ comment "Douban group graph" directed 0 node [ id 1 label "帮助大山里的孩子" size 5833 url "http://www.douban.com/group/16533/" ] node [ id 2 label "加入这个组你就会变聪明" size 3689 url "http://www.douban.com/group/congming/" ] ..... edge [ source 1 target 2 ] ]
在Gephi中可视化处理网络
Gephi是一款很流行复杂网络可视化软件,我就用它打开前面生成的GML文件,然后可以对节点进行配色,分类以及布局。具体就不讲了,最后得到的网络图是这个模样的。节点越大说明小组的连接个数越多,颜色代表着不同的小组类型(用Gephi的自带算法分类的)。下面这张图这种我划出了4个不同的区域,代表着不同类型的小组,有人能猜到分别是什么类型的小组吗?可以告诉你是哪四种:蕾丝小组,Gay小组,手工小组,美容小组。
Have Fun~
相关文章推荐
- 用Scrapy抓取豆瓣小组数据(二)
- 用Scrapy抓取豆瓣小组数据(一)
- 用Scrapy抓取豆瓣小组数据(二)
- 用Scrapy抓取豆瓣小组数据(三)
- 利用python scrapy 框架抓取豆瓣小组数据
- 用Scrapy抓取豆瓣小组数据(一)
- 用Scrapy抓取豆瓣小组数据(二)
- 用Scrapy抓取豆瓣小组数据
- scrapy 抓取豆瓣数据(1)
- scrapy抓取豆瓣数据(2)
- Scrapy 爬虫实例 抓取豆瓣小组信息并保存到mongodb中 推荐
- scrapy-splash抓取动态数据例子十四
- 使用scrapy、selenium、phantojs抓取豆瓣热门电影的spider
- Scrapy:抓取返回数据格式为JSON的网站内容
- Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
- Python3 + Scrapy 爬取豆瓣评分数据存入Mysql与MongoDB数据库。
- Scrapy抓取京东商品、豆瓣电影及代码分享
- Python爬虫框架Scrapy实战之抓取户外数据
- Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
- scrapy-splash抓取动态数据例子八