您的位置:首页 > Web前端

#One paper per week# Inferring Correspondences from Multiple Sources for Microblog User Tags

2015-05-03 16:49 513 查看
论文题目:Inferring Correspondences from Multiple Sources for Microblog User Tags

论文地址:http://link.springer.com/chapter/10.1007/978-3-662-45558-6_1

论文大体内容:

作者提出了一个TCM(Tag Correspondence Model)的模型,用于有效地推荐标签给用户。

“该论文面向社会媒体的用户标签推荐任务,提出了一种综合利用用户的多源异质信息进行标签推荐的方法,与传统利用单源信息进行标签推荐相比,能够有效提升标签推荐性能。”[1]

1、目前来说,有些推荐方法是根据用户标标签行为,基于合作的方法(collaboration-based approach),有些是基于内容的方法(content-based approach)。然后作者把多种source(包括用户个人简介,用户信息,关联用户的信息等)结合在一起,推出TCM模型。

2、TCM是一个概率生成模型(probabilistic generative model),里面各个参数比较复杂,有兴趣可阅读原论文。然后作者结合文档主题生成模型(LDA,Latent Dirichlet Allocation)[2],把里面的公式进行优化。

3、作者选择的source有:user message(UM),user descriptions(UD),neighbor tags(NT),neighbor descriptions(ND)。作者在新浪微博上随机选择了200万用户从2012年1月到同年12月的微博,经筛选后剩下30多万用户。处理出UM, UD, NT, ND后进行分析,发现NT的重要性最大(感觉跟“物以类聚”有关)。

4、最后,作者将多个不同的模型进行准确率(precision),召回率(recall)以及F1做了一个比较,发现将上面4个source联合后的模型表现得最好,F1是0.184。

这篇文章感觉很难懂,但从中了解到了LDA,也是不错的收获。

参考资料:

[1]、http://www.cs.tsinghua.edu.cn/publish/cs/4840/2014/20141205105155049573081/20141205105155049573081_.html

[2]、LDA介绍,http://blog.sina.com.cn/s/blog_9d7bca9f01015580.html

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐