【工程处理技巧一篇】基于半规则数据的命名实体消歧识别【未完】
2011-03-03 21:26
253 查看
作者:finallyly 出处:博客园(转载请注明作者和出处)
看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法。其实不然,本篇博客旨在分享笔者在处理那些繁杂、冗踏、低端甚至于极其TMDTMD无聊的体力工作中的一点见解。
先说一下工作材料和需求和难点。
工作材料:20W以上冗余的数据库。字段信息是(作者和工作单位)。
工作需求:区分哪些同名的作者是一个人,哪些同名的作者不是一个人。
入手思路:从工作单位字段来区分。如果工作单位字段里的内容完全相同,那么就为同一个人。
工作难点:工作单位字段写的不够规范,比如有的单位字符串只写到大学如“沈阳大学”,有的单位字符串却具体到了院系甚至于研究所。 即便是描述详细的单位字符串写法细节上也有很多区别。比如“东北大学,信息与通信工程学院”,“东北大学信息与通信工程学院”,“东北大学 信息与通信工程学院”,“东北大学信通院",“中国科学与技术大学计算机系”,“中国科大计算机系”,“中国科技大学计算机技术系”。。。。。。等等。
众所周知,计算机所擅长的工作是“匹配”,不会像人那样具备理解自然语言,自动消歧的能力。即便是人工智能,也是在某种程度上依赖于知识库和知识库的“数据结构”,然后利用某种高效的搜索算法去匹配答案。
看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法。其实不然,本篇博客旨在分享笔者在处理那些繁杂、冗踏、低端甚至于极其TMDTMD无聊的体力工作中的一点见解。
先说一下工作材料和需求和难点。
工作材料:20W以上冗余的数据库。字段信息是(作者和工作单位)。
工作需求:区分哪些同名的作者是一个人,哪些同名的作者不是一个人。
入手思路:从工作单位字段来区分。如果工作单位字段里的内容完全相同,那么就为同一个人。
工作难点:工作单位字段写的不够规范,比如有的单位字符串只写到大学如“沈阳大学”,有的单位字符串却具体到了院系甚至于研究所。 即便是描述详细的单位字符串写法细节上也有很多区别。比如“东北大学,信息与通信工程学院”,“东北大学信息与通信工程学院”,“东北大学 信息与通信工程学院”,“东北大学信通院",“中国科学与技术大学计算机系”,“中国科大计算机系”,“中国科技大学计算机技术系”。。。。。。等等。
众所周知,计算机所擅长的工作是“匹配”,不会像人那样具备理解自然语言,自动消歧的能力。即便是人工智能,也是在某种程度上依赖于知识库和知识库的“数据结构”,然后利用某种高效的搜索算法去匹配答案。
相关文章推荐
- 基于规则的命名实体识别
- 基于深层神经网络的命名实体识别技术
- python数据分析及处理案例技巧11-20(基于jupyter)
- 基于深层神经网络的命名实体识别技术
- 基于深层神经网络的命名实体识别技术
- 基于VSM的命名实体识别、歧义消解和指代消解
- 【转】基于VSM的命名实体识别、歧义消解和指代消解
- 基于FOFE的命名实体识别局部检测方法
- 基于CRF工具的机器学习方法命名实体识别的过
- 基于条件随机场(CRF)的命名实体识别
- CS224d 单隐层全连接网络处理英文命名实体识别tensorflow
- 基于深层神经网络的命名实体识别技术
- 基于文件数据库的规则引擎处理海量高复杂度数据(一,业务背景)
- 基于深层神经网络的命名实体识别技术
- 基于crf的命名实体识别的一部分总结加文本分类大致流程
- 基于深层神经网络的命名实体识别技术
- 基于文件数据库的规则引擎处理海量高复杂度数据(二,解决方案)
- 基于深层神经网络的命名实体识别技术
- 基于统计的命名实体识别特征选择
- 命名实体识别(named entity recognition )基于统计方法的技术比较