SMP_WEIBO_2016 微博用户画像 可视化(未完成)
2017-12-24 18:18
330 查看
这个数据集标注的用户有4467位,通过筛选,将网络范围缩小到标注用户以及与标注用户具有关注关系的用户,筛选后网络节点数量为445150个节点。首先观察网络的形态
工具:gephi
![](http://img.blog.csdn.net/20171224181748793?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc3B5bHl0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
节点颜色:
![](http://img.blog.csdn.net/20171224182245549?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc3B5bHl0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
节点大小由其HUB值决定。
可以看到并没有什么很明显的社团结构。而且从未标注节点的角度看,仅与相同loc相连接的未标注节点并不多。
如果是猜测角度出发,那么如果一个未标注节点的所有邻居都是一个Loc的,那么,这个未标注节点为同一种loc的可能性会比较大。
所以,选择未标注节点,节点的邻居为一种loc,节点边数最少为3,即最少连接三个已标注用户。网络参数为:节点数为6451,边数为14735。
![](http://img.blog.csdn.net/20171225224904141?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc3B5bHl0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
初步观察可以发现具有大量未标注用户与已标注用户交织连接。当然也存在一些已标注用户没有关注用户与之相连接,原因自然是这个网络数据量仍然不全面,或者关注用户是 异质的。
初步断定这种因素下的未标注用户是否与所连接的节点是一致的。
![](http://img.blog.csdn.net/20171226103732126?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc3B5bHl0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
![](http://img.blog.csdn.net/20171226104756456?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc3B5bHl0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
使用openord工具,支持10亿以上的点,速度非常快
![](http://img.blog.csdn.net/20171226105609073?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc3B5bHl0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
Graph Distance Report
Results: Diameter: 33
Radius: 0
Average Path length: 7.644273763632479
Algorithm: Ulrik Brandes, A Faster Algorithm for Betweenness Centrality, in Journal of Mathematical Sociology 25(2):163-177, (2001)
由图中也可以看出,标注用户以华东与华北为主。由图距离报告可以看出,是否符合“六度分隔”理论呢?
一些有趣的点
![](http://img.blog.csdn.net/20171226104053260?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc3B5bHl0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
本来的想法呢是通过未标注数据来判断:是否与相同loc连接的节点loc也能够确定,但是没有这方面的数据。所以弃了。
如果想要在这个图上进一步的进行处理,可以使用边近似的方式 ,未标注点成为一条边,绕过未标注数据。
整个实现思路比较简单,代码就不上传了。欢迎有想法的小伙伴与我讨论,QQ22549524
工具:gephi
节点颜色:
节点大小由其HUB值决定。
可以看到并没有什么很明显的社团结构。而且从未标注节点的角度看,仅与相同loc相连接的未标注节点并不多。
如果是猜测角度出发,那么如果一个未标注节点的所有邻居都是一个Loc的,那么,这个未标注节点为同一种loc的可能性会比较大。
所以,选择未标注节点,节点的邻居为一种loc,节点边数最少为3,即最少连接三个已标注用户。网络参数为:节点数为6451,边数为14735。
初步观察可以发现具有大量未标注用户与已标注用户交织连接。当然也存在一些已标注用户没有关注用户与之相连接,原因自然是这个网络数据量仍然不全面,或者关注用户是 异质的。
初步断定这种因素下的未标注用户是否与所连接的节点是一致的。
使用openord工具,支持10亿以上的点,速度非常快
Graph Distance Report
Results: Diameter: 33
Radius: 0
Average Path length: 7.644273763632479
Algorithm: Ulrik Brandes, A Faster Algorithm for Betweenness Centrality, in Journal of Mathematical Sociology 25(2):163-177, (2001)
由图中也可以看出,标注用户以华东与华北为主。由图距离报告可以看出,是否符合“六度分隔”理论呢?
一些有趣的点
本来的想法呢是通过未标注数据来判断:是否与相同loc连接的节点loc也能够确定,但是没有这方面的数据。所以弃了。
如果想要在这个图上进一步的进行处理,可以使用边近似的方式 ,未标注点成为一条边,绕过未标注数据。
整个实现思路比较简单,代码就不上传了。欢迎有想法的小伙伴与我讨论,QQ22549524
相关文章推荐
- SMP CUP微博用户画像大赛解决方案
- python爬虫爬取指定用户微博图片及内容,并进行微博分类及使用习惯分析,生成可视化图表
- 2016微博用户研究:新欢、旧爱、核心价值与迫切之疾
- 用户画像实例:创建可信的微博用户画像
- 一个脚本打比赛之SMP WEIBO 2016
- 【2016 Esri全球用户大会主题看点】_可视化&分析APP—Insights for ArcGIS
- 2016CCF 大数据与计算智能大赛——搜狗用户画像(NLP)
- Meteor:用户账号管理添加密码和微博weibo账号系统支持
- 在为应用集成微博第三方登录获取用户信息的时候出现异常com.weibo.sdk.android.WeiboException: {"error":"User does not exists!","er
- 2016微博用户研究:新欢、旧爱、核心价值与迫切之疾
- 用户画像数据可视化
- 2016-ccf-data-mining-competition 搜狗用户画像构建
- UEBA——通过用户画像识别安全威胁
- 如何构建用户画像
- 用户画像越完整,用户本人越遭殃
- 用户画像系统
- 用户画像的方法与案例——从具象到抽象
- 思路+步骤+方法,三步教你如何快速构建用户画像?
- 新浪微博用户模型类