基于自然语言关键词的打分器
2016-10-15 21:28
155 查看
最近在做自然语言处理,当句子中有多个关键字时,就无法简单的通过关键字进行分类,需要筛选出句子的核心关键字,基于这个思想,自己开发了一个打分器,得分多高的关键词,即为该句的核心关键词
该打分器主要是为自然句子中的关键字进行打分,通过分数的高低选举出关键字的重要度
下面通过简单的例子说明,如句子: 电脑异响,怀疑是硬盘有问题,查为风扇的故障,更换风扇后正常.
其中筛选出和电脑相关的词汇设置为关键字:硬盘,风扇 再筛选出来加分词:故障 减分词:正常
然后通过公式score = d/(distance+1) * weight 其中d为调节因子,distance为关键字到加(减)分词的距离,weight代表加(减)分词的权重 经计算该句子关键词的得分分别为:风扇3.5 硬盘1.0 因此我们得知,该句子核心是:风扇的故障
应用场景:对汽车,电脑。。。之类的生产制造售后维修文本信息进行归类,丰富知识库,通过大数据分析还可挖掘出各部件的问题及易坏程度等等
其中有几个需要INPUT的词库:
关键词词库,存放组成该物体的零部件词汇,以电脑为例,关键词词库应有:cpu 硬盘 显示器 风扇 ...
加分词库,可以描述该部件非正常的词汇如,异响,有问题,不亮,反应慢 ...
减分词库,描述该部件正常的词汇,正常,无异常,无问题 ...
打分器源码: https://github.com/rockZjy/KeywordScore
最近才开始用githup,不足之处请指导
该打分器主要是为自然句子中的关键字进行打分,通过分数的高低选举出关键字的重要度
下面通过简单的例子说明,如句子: 电脑异响,怀疑是硬盘有问题,查为风扇的故障,更换风扇后正常.
其中筛选出和电脑相关的词汇设置为关键字:硬盘,风扇 再筛选出来加分词:故障 减分词:正常
然后通过公式score = d/(distance+1) * weight 其中d为调节因子,distance为关键字到加(减)分词的距离,weight代表加(减)分词的权重 经计算该句子关键词的得分分别为:风扇3.5 硬盘1.0 因此我们得知,该句子核心是:风扇的故障
应用场景:对汽车,电脑。。。之类的生产制造售后维修文本信息进行归类,丰富知识库,通过大数据分析还可挖掘出各部件的问题及易坏程度等等
其中有几个需要INPUT的词库:
关键词词库,存放组成该物体的零部件词汇,以电脑为例,关键词词库应有:cpu 硬盘 显示器 风扇 ...
加分词库,可以描述该部件非正常的词汇如,异响,有问题,不亮,反应慢 ...
减分词库,描述该部件正常的词汇,正常,无异常,无问题 ...
打分器源码: https://github.com/rockZjy/KeywordScore
最近才开始用githup,不足之处请指导
相关文章推荐
- 基于大数据与深度学习的自然语言对话
- 基于自然语言识别下的流失用户预警
- 基于Centos体验自然语言处理 by Python SDK
- 基于大数据与深度学习的自然语言对话
- 用CNTK搞深度学习 (二) 训练基于RNN的自然语言模型 ( language model )
- 基于自然语言对话的智能辅导系统
- 基于大数据与深度学习的自然语言对话
- 基于Centos体验自然语言处理 by PHP SDK
- 基于大数据与深度学习的自然语言对话
- 【TensorFlow】LSTM(基于PTB的自然语言建模)
- 基于大数据与深度学习的自然语言对话
- 结巴分词和自然语言处理HanLP处理手记
- 报表源代码 winform c# -基于DexExpressXtraReport的打印报表,后台生成报表,winform版本,采用C#语言封装,比金质通更强大,现在开放源代码 .
- 简单易懂的程序语言入门小册子(3):基于文本替换的解释器,let表达式,布尔类型,if表达式
- 练手玩意:基于盘古开源分词组件的数据库关键词提取程序(ASPX)
- 基于 Web 的 Go 语言 IDE - Wide 1.5.2 发布!
- 基于浏览器首选语言的springmvc和freemarker国际化配置的实现
- 访问者模式(Visitor)-----基于JAVA语言
- 中介者模式(Mediator)-----基于JAVA语言