您的位置:首页 > 理论基础 > 计算机网络

SMP_WEIBO_2016 微博用户画像 可视化(未完成)

2017-12-24 18:18 330 查看
这个数据集标注的用户有4467位,通过筛选,将网络范围缩小到标注用户以及与标注用户具有关注关系的用户,筛选后网络节点数量为445150个节点。首先观察网络的形态

工具:gephi



节点颜色:



节点大小由其HUB值决定。

可以看到并没有什么很明显的社团结构。而且从未标注节点的角度看,仅与相同loc相连接的未标注节点并不多。

如果是猜测角度出发,那么如果一个未标注节点的所有邻居都是一个Loc的,那么,这个未标注节点为同一种loc的可能性会比较大

所以,选择未标注节点,节点的邻居为一种loc,节点边数最少为3,即最少连接三个已标注用户。网络参数为:节点数为6451,边数为14735。



初步观察可以发现具有大量未标注用户与已标注用户交织连接。当然也存在一些已标注用户没有关注用户与之相连接,原因自然是这个网络数据量仍然不全面,或者关注用户是 异质的。

初步断定这种因素下的未标注用户是否与所连接的节点是一致的。





使用openord工具,支持10亿以上的点,速度非常快



Graph Distance Report
Results: Diameter: 33
Radius: 0
Average Path length: 7.644273763632479
Algorithm: Ulrik Brandes, A Faster Algorithm for Betweenness Centrality, in Journal of Mathematical Sociology 25(2):163-177, (2001)

由图中也可以看出,标注用户以华东与华北为主。由图距离报告可以看出,是否符合“六度分隔”理论呢?

一些有趣的点



本来的想法呢是通过未标注数据来判断:是否与相同loc连接的节点loc也能够确定,但是没有这方面的数据。所以弃了。

如果想要在这个图上进一步的进行处理,可以使用边近似的方式 ,未标注点成为一条边,绕过未标注数据。

整个实现思路比较简单,代码就不上传了。欢迎有想法的小伙伴与我讨论,QQ22549524
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息