您的位置:首页 > 其它

基于自然语言关键词的打分器

2016-05-10 16:44 246 查看

最近在做自然语言处理,当句子中有多个关键字时,就无法简单的通过关键字进行分类,需要筛选出句子的核心关键字,基于这个思想,自己开发了一个打分器,得分多高的关键词,即为该句的核心关键词

 

该打分器主要是为自然句子中的关键字进行打分,通过分数的高低选举出关键字的重要度

下面通过简单的例子说明,如句子: 电脑异响,怀疑是硬盘有问题,查为风扇的故障,更换风扇后正常.

其中筛选出和电脑相关的词汇设置为关键字:硬盘,风扇 再筛选出来加分词:故障 减分词:正常

然后通过公式score = d/(distance+1) * weight 其中d为调节因子,distance为关键字到加(减)分词的距离,weight代表加(减)分词的权重 经计算该句子关键词的得分分别为:风扇3.5 硬盘1.0 因此我们得知,该句子核心是:风扇的故障

 

应用场景:对汽车,电脑。。。之类的生产制造售后维修文本信息进行归类,丰富知识库,通过大数据分析还可挖掘出各部件的问题及易坏程度等等

 

其中有几个需要INPUT的词库:

关键词词库,存放组成该物体的零部件词汇,以电脑为例,关键词词库应有:cpu 硬盘 显示器 风扇 ...

加分词库,可以描述该部件非正常的词汇如,异响,有问题,不亮,反应慢 ...

减分词库,描述该部件正常的词汇,正常,无异常,无问题 ...

 

打分器源码: https://github.com/rockZjy/KeywordScore

最近才开始用githup,不足之处请指导

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: