您的位置:首页 > 编程语言 > ASP

#Paper Reading# Lifelong aspect extraction from big data knowledge engineering

2016-10-09 15:29 507 查看
论文题目:Lifelong aspect extraction from big data knowledge engineering

论文地址:http://casmodeling.springeropen.com/articles/10.1186/s40294-016-0018-7

论文大体内容:

本文通过调查、分析现有的基于知识库的主题模型,对比彼此的相同与不同,并分析各自的缺点,以及在不同任务需求下的挑战。

1、概率主题模型是依赖于词的共现度来确定哪些词属于同一主题下,而在aspect级别(细粒度)观点挖掘下,由于aspect观点词在同一个文档下的出现率低,会导致现有的概率主题模型不能很好地挖掘出aspect级别的主题词。(P.S. 目前比较好的aspect level sentiment mining模型有LAST[1],该模型的说明可以看之前的一篇博文[2])

2、对文本进行aspect级别挖掘是为了能够发现更多有用的信息,如下图。粗粒度看一个相机(商品),只能知道它是多少分,但通过细粒度挖掘,能够知道在设计、电池寿命、拍照、录像等方面的表现。



3、对于现在商品的big data,如商品评论,里面有大量主观的、不太正式的标注(包括语法错误、俚语、词语缩写等),会对aspect抽取模型造成很不好的结果。

4、aspect抽取面临的问题是:如何利用无监督的数据,进行更有效地进行aspect抽取。

5、前人的一些研究方向如下图。包括以下几个方面:

①基于出现频率与关系的技术,包括抽取显式aspect和隐式aspect。主要思想是生成一个候选aspect集合,根据出现频率进行过滤、选择aspect。(非监督的)

②基于概率主题模型的,包括基于非监督主题模型和利用先验知识进行改进。其中先验知识包括Lifelong Machine Learning中使用的must-link和cannot-link。



6、Lifelong Machine Learning的Online版OAMC[3]的大体框架如下图。



7、几种使用了知识库的模型的对比如下图。



8、Lifelong Machine Learning可以应用到层次主题模型,但需要对学习和知识迁移的算法改进一下;也可以应用到流数据。

参考资料:

[1]、http://dl.acm.org/citation.cfm?id=2883086

[2]、http://blog.csdn.net/john159151/article/details/52750351

[3]、https://www.hindawi.com/journals/cin/2016/6081804/abs/

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  LML
相关文章推荐