您的位置:首页 > 其它

【工程处理技巧一篇】基于半规则数据的命名实体消歧识别【未完】

2011-03-03 21:26 253 查看
作者:finallyly 出处:博客园(转载请注明作者和出处)

看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法。其实不然,本篇博客旨在分享笔者在处理那些繁杂、冗踏、低端甚至于极其TMDTMD无聊的体力工作中的一点见解。

先说一下工作材料和需求和难点。

工作材料:20W以上冗余的数据库。字段信息是(作者和工作单位)。

工作需求:区分哪些同名的作者是一个人,哪些同名的作者不是一个人。

入手思路:从工作单位字段来区分。如果工作单位字段里的内容完全相同,那么就为同一个人。

工作难点:工作单位字段写的不够规范,比如有的单位字符串只写到大学如“沈阳大学”,有的单位字符串却具体到了院系甚至于研究所。 即便是描述详细的单位字符串写法细节上也有很多区别。比如“东北大学,信息与通信工程学院”,“东北大学信息与通信工程学院”,“东北大学 信息与通信工程学院”,“东北大学信通院",“中国科学与技术大学计算机系”,“中国科大计算机系”,“中国科技大学计算机技术系”。。。。。。等等。

众所周知,计算机所擅长的工作是“匹配”,不会像人那样具备理解自然语言,自动消歧的能力。即便是人工智能,也是在某种程度上依赖于知识库和知识库的“数据结构”,然后利用某种高效的搜索算法去匹配答案。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: