您的位置：首页 > Web前端

#One paper per week# Inferring Correspondences from Multiple Sources for Microblog User Tags

2015-05-03 16:49 513 查看

论文题目：Inferring Correspondences from Multiple Sources for Microblog User Tags

论文地址：http://link.springer.com/chapter/10.1007/978-3-662-45558-6_1

论文大体内容：

作者提出了一个TCM(Tag Correspondence Model)的模型，用于有效地推荐标签给用户。

“该论文面向社会媒体的用户标签推荐任务，提出了一种综合利用用户的多源异质信息进行标签推荐的方法，与传统利用单源信息进行标签推荐相比，能够有效提升标签推荐性能。”[1]

1、目前来说，有些推荐方法是根据用户标标签行为，基于合作的方法(collaboration-based approach)，有些是基于内容的方法(content-based approach)。然后作者把多种source(包括用户个人简介，用户信息，关联用户的信息等)结合在一起，推出TCM模型。

2、TCM是一个概率生成模型(probabilistic generative model)，里面各个参数比较复杂，有兴趣可阅读原论文。然后作者结合文档主题生成模型(LDA，Latent Dirichlet Allocation)[2]，把里面的公式进行优化。

3、作者选择的source有：user message(UM)，user descriptions(UD)，neighbor tags(NT)，neighbor descriptions(ND)。作者在新浪微博上随机选择了200万用户从2012年1月到同年12月的微博，经筛选后剩下30多万用户。处理出UM, UD, NT, ND后进行分析，发现NT的重要性最大(感觉跟“物以类聚”有关)。

4、最后，作者将多个不同的模型进行准确率(precision)，召回率(recall)以及F1做了一个比较，发现将上面4个source联合后的模型表现得最好，F1是0.184。

这篇文章感觉很难懂，但从中了解到了LDA，也是不错的收获。

参考资料：

[1]、http://www.cs.tsinghua.edu.cn/publish/cs/4840/2014/20141205105155049573081/20141205105155049573081_.html

[2]、LDA介绍，http://blog.sina.com.cn/s/blog_9d7bca9f01015580.html

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航