您的位置:首页 > 其它

情感分析(Sentiment Analysis)的难题

2009-12-01 10:32 302 查看
我们对在线文本进行文本挖掘的任务之一,就是进
行情感分析(SentimentAnalysis),即分析发贴人对某个对象的态度是正面还是负面。这个过程当然不是仅仅查找"好","坏"这些关键字那
么简单,有时候相似度很高的句子,却反映了截然不同的态度,譬如下面这两句话

"这瓶洗发水,适合头发很干的人用"
"用了这瓶洗发水,头发变得很干"
两个句子中的主要成分都差不多,"洗发水","头发","很干",但是第一句是褒义,第二句则很可能是贬义。对于后一句的处理还算简单,告诉计算机
程序头发"很干"不好,因此让头发"变得""很干"的洗发水,也就不是好的洗发水。而前一句呢,我们能够理解"适合头发很干的人用"是指使用该洗发水后,
能让头发变得不那么干燥点。但是假设我们告诉计算机,"某某产品适合XXX的人用"就是指用了某某产品后,XXX的人就会变得不那么XXX,那么当计算机
处理"这件衣服,适合漂亮女生穿",你猜它会怎么理解?(漂亮的女生穿了就会变得不那么漂亮)

还有一类问题是讽刺(反话)和幽默,国外的一个自然语言处理专家也在他的blog上感叹道,"Humor is hard"。在国内,很多褒义词受到论坛文化的影响,往贬义词发展的趋势,例如"我太崇拜你了","你太有才了"。

说到底,这些都是自然语言处理面对的一个挑战,即如何将生活经验、文化传统等表达为一种可以被计算机理解和利用的形式。

写到这儿,我同事的电脑刚刚蓝了一次屏,他跟我说,"这电脑也太稳定了吧"。

抛开讽刺、反语和幽默不谈(这个不同国家,不同文化背景的人理解也不同),就情感分类本身而言也是一个比"想象中"要难很多的课题。自然语言分析是一个多年未解的难题,更别说加入了情感,这个人性中最复杂的因素之一。


据我们以前的研究经验,产品的口碑可以算是比较容易分析的。如果你看过电影的评论(Movie
Review),就会发现这个问题有多么的可怕。目前通常的解决方法有两大类:非监督式学习和监督式学习。前者依赖字典等提供带有情感的词,例如”很好
“,”喜欢”等等进行分类。后者通过大量的标注文本进行学习和分类。非监督式的优点在于无需人工参与,起步快,精度较高,适合不同领域,但缺点是覆盖面很
低。这主要是因为情感的表达方式很多样,尤其是用户表达不满的时候。监督式的优点是只要标注的文本足够多,精度和覆盖率都会有保证,缺点自然是需要很多人
工的力量。在实际应用中,我们往往会将这两者结合起来,达到预期的效果。

就上面的这个例子而言,可能监督式更适合些。“很干”在不同的上
下文,不同产品领域,所表达的情感是不定的。当然了,标注这一句话是简单的,如果人工标准需要很多很多呢?是不是现实?如果标注的量大大超出我们的预期,
为什么还要一个所谓的自动算法呢?这倒有些像“先有鸡还是先有蛋”的问题了。根据我们目前的经验,比较实际的做法是让电脑处理那些比较简单的句子(大概
10%-30%),剩下的人为标注。这样日积月累,我们也可以不断提高电脑所能处理的句型了。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: