您的位置:首页 > 理论基础 > 计算机网络

社区发现研究现状(二)

2014-04-08 21:09 274 查看
        这部分主要介绍运用主题模型解决社区发现的研究现状。

     主题模型研究现状

        主题模型主要用在自然语言处理领域,在该领域,主题是语义相近词项的集合,主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间的表达。

        主题模型起源于隐性语义索引(Latent Semantic Indexing, LSI)[20],基于在同样的语境中使用的词语一般具有相似的含义这一基本假设,通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式,从而把一组文档中具有隐含的语义联系的词语联系起来。LSI虽不是概率模型,也算不上主题模型,但是其基本思想为主题模型的发展奠定了基础。Hofmann等人[21]在LSI的基础上提出了概率隐性语义索引(probabilistic LatentSemantic Indexing,
pLSI)。图4中,d表示文档编号,z是主题,w是单词,M为文档数目,N为文档d的单词数,其中z是隐含变量。图5描述了该模型的文档生成过程。模型中文档d和单词w是输入,通过EM算法进行参数估计输出两组参数:p(w|z)和p(z|d),即各主题下词项的概率分布和各文档下主题的概率分布。针对pLSI存在的过拟合问题,Blei等人[22]又提出了隐含狄利克雷分布(Latent
Dirichlet Allocation, LDA),在pLSI的基础上,对主题下词项分布和文档下主题分布都施加了Dirichlet先验分布,使得文档生成模型更加自然。图6是LDA的图模型表示,图7是其文档生成过程。运用参数估计算法可以输出θ和φ,即主题分布和词项分布。在LDA的基础上,为适应各种不同的使用场景,又发展出了许许多多的模型。例如,Rosen-Zvi等人[23]提出了作者主题模型(Author-Topic, AT),认为每个作者有一个主题分布,一篇文档可以有多个作者。McCallum等人[24]又在AT模型基础上,提出了作者接受者主题模型(Author-Recipient-Topic,ART),适用于具有方向性的文档,如邮件网络。

      基于主题模型的社区发现研究现状

        由于主题模型挖掘出的主题是从单词语义上的关联进行聚类,而社会网络中的社区发现也希望能够聚集出有内在联系的用户,因此,基于主题模型的社区发现技术的出现就顺理成章了。目前,运用主题模型进行社会网络中的社区发现主要有两条技术路线。

       其一,将用户看作单词,主题看作社区,直接运用已有主题模型得到社区。Zhang等人[25]把合作网络中每个用户看作文档,每个用户的所有合作者看作该文档的单词,合作次数为某单词在该文档中出现次数,这里文档和单词都是整个用户集合。运用LDA模型,聚集出50个主题,即要发现的50个社区。Cha等人[26, 27]研究Twitter网络,把用户看作文档,每个用户关注的人看作该文档的单词。文档处理中的停止词是被舍弃的,而Twitter中类似停止词的是关注度特别高的用户,这部分用户影响力大,不能简单舍弃。针对这个区别,Cha等人将这部分用户特殊化,看作一个“流行组件”添加到主题模型的构建中。

       其二,将社区这个元素融合到传统主题模型中,构建全新的模型,使得用户的社区概率分布为其中可估计的一个参数。Zhou等人[28]针对邮件网络,提出了偏向于用户社区的CUT1模型和偏向于主题社区的CUT2。图8和图9分别为CUT1和CUT2图模型表示。CUT1中社区决定了收件人,再决定了邮件话题,最后决定单词,显然发现的社区倾向于拓扑连接紧密。CUT2中社区决定了邮件话题,再决定收件人,最后决定单词,显然发现的社区倾向于谈论相同的主题。Li等人[29]对文章引用网络,提出作者主题社区(Author-Topic-Community,ATC)模型,认为作者之间有边是因为有共同兴趣引起的,而非文档引用关系确定的,对主题抽取和社区发现都有改善作用。Sachan等人[30]将用户之间的通信类型(比如在Twitter中分为,广播式的发微博、单播式的评论与转发)添加到主题模型中,构建了主题用户社区模型(Topic
User Community Model, TUCM)。

       到目前为止,将主题模型运用于分析LBSN结构性质的研究还是很少的。文献[31]将LDA模型运用到Foursquare数据上,把用户看作文档,把用户的每个签到记录看作该文档的单词,得到若干个主题,即若干个位置的聚类。观察这些发现的聚类,发现使得这些位置聚集到一起的因素大致有三类:种类语义上相似;地理位置相近;可能被访问的用户类型相同。这表明主题模型确实能够有效地挖掘出一些隐含的、难以发现的位置间的共同点。因此,将主题模型运用于LBSN中的社区发现问题,对挖掘出内部拓扑连接紧密并且用户之间有语义相似性的社区必然有正向作用。

[1]     Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latentsemantic analysis[J]. JASIS, 1990, 41(6): 391-407.

[2]     Hofmann T. Probabilistic latent semantic indexing[C]. Proceedings ofthe 22nd annual international ACM SIGIR conference on Research and developmentin information retrieval. ACM, 1999: 50-57.

[3]     Blei D M, Ng A Y, Jordan M I. Latent dirichletallocation[J]. the Journalof machine Learning research, 2003, 3: 993-1022.

[4]     Rosen-Zvi M, Griffiths T, Steyvers M, et al. The author-topic model forauthors and documents[C]. Proceedings of the 20th conference on Uncertainty inartificial intelligence.
AUAI Press, 2004: 487-494.

[5]     McCallum
A, Corrada-Emmanuel A, Wang X. The author-recipient-topic model fortopic and role discovery in social networks: Experiments with enron andacademic email[J]. 2005.

[6]     Zhang H, Qiu B, Giles C L, et al. An LDA-based community structurediscovery approach for large-scale social networks[C]. Intelligence andSecurity Informatics, 2007 IEEE. IEEE, 2007: 200-207.

[7]     Cha Y, Cho J. Social-network analysis using topic models[C]. Proceedingsof the 35th international ACM SIGIR conference on Research and development ininformation retrieval. ACM, 2012: 565-574.

[8]     Cha Y, Bi B, Hsieh C C, et al. Incorporating popularity in topicmodels for social network analysis[C]. Proceedings of the 36th internationalACM SIGIR conference on Research and development in information retrieval. ACM,2013: 223-232.

[9]     Zhou D, Manavoglu E, Li J, et al. Probabilistic models fordiscovering e-communities[C]. Proceedings of the 15th international conferenceon World Wide Web. ACM, 2006: 173-182.

[10]  Li C, Cheung W K, Ye Y, et al. TheAuthor-Topic-Community Model: A Generative Model Relating Authors’ Interestsand Their Community Structure[M]. Advanced Data Mining and Applications.Springer Berlin Heidelberg, 2012: 753-765.

[11]  Sachan M, Contractor D, Faruquie T A,et al. Using content and interactions for discovering communities in socialnetworks[C]. Proceedings of the 21st international conference on World WideWeb. ACM, 2012: 331-340.

[12]  Joseph K, Tan C H, Carley K M. Beyondlocal, categories and friends: clustering foursquare users with latenttopics[C]. Proceedings of the 2012 ACM Conference on Ubiquitous Computing. ACM,2012: 919-926.

[13]  Liu J. Fuzzy modularity andfuzzy community structure in networks[J]. The European PhysicalJournal B, 2010, 77(4): 547-557.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  社交网络 LDA 社区