基于自然语言关键词的打分器
2016-05-10 16:44
246 查看
最近在做自然语言处理,当句子中有多个关键字时,就无法简单的通过关键字进行分类,需要筛选出句子的核心关键字,基于这个思想,自己开发了一个打分器,得分多高的关键词,即为该句的核心关键词
该打分器主要是为自然句子中的关键字进行打分,通过分数的高低选举出关键字的重要度
下面通过简单的例子说明,如句子: 电脑异响,怀疑是硬盘有问题,查为风扇的故障,更换风扇后正常.
其中筛选出和电脑相关的词汇设置为关键字:硬盘,风扇 再筛选出来加分词:故障 减分词:正常
然后通过公式score = d/(distance+1) * weight 其中d为调节因子,distance为关键字到加(减)分词的距离,weight代表加(减)分词的权重 经计算该句子关键词的得分分别为:风扇3.5 硬盘1.0 因此我们得知,该句子核心是:风扇的故障
应用场景:对汽车,电脑。。。之类的生产制造售后维修文本信息进行归类,丰富知识库,通过大数据分析还可挖掘出各部件的问题及易坏程度等等
其中有几个需要INPUT的词库:
关键词词库,存放组成该物体的零部件词汇,以电脑为例,关键词词库应有:cpu 硬盘 显示器 风扇 ...
加分词库,可以描述该部件非正常的词汇如,异响,有问题,不亮,反应慢 ...
减分词库,描述该部件正常的词汇,正常,无异常,无问题 ...
打分器源码: https://github.com/rockZjy/KeywordScore
最近才开始用githup,不足之处请指导
相关文章推荐
- 基于自然语言关键词的打分器
- 基于大数据与深度学习的自然语言对话
- 基于大数据与深度学习的自然语言对话
- 基于大数据与深度学习的自然语言对话
- 基于Centos体验自然语言处理 by PHP SDK
- 基于大数据与深度学习的自然语言对话
- 基于自然语言对话的智能辅导系统
- 【TensorFlow】LSTM(基于PTB的自然语言建模)
- 基于自然语言识别下的流失用户预警
- 用CNTK搞深度学习 (二) 训练基于RNN的自然语言模型 ( language model )
- 基于Centos体验自然语言处理 by Python SDK
- 基于大数据与深度学习的自然语言对话
- 金融科技&大数据产品推荐:氪信XBehavior — 基于高维行为语言处理技术的信贷风险评估
- Outlook中时间的自然语言支持
- 简单易懂的程序语言入门小册子(4):基于文本替换的解释器,递归,如何构造递归函数,Y组合子
- 自然场景文本识别:基于笔画宽度变换的文本检测
- php、js两种不同方式根据关键词返回经纬度接口【基于Google map API】
- jieba--做最好用的中文分词组件详解【3】(基于TF-IDF算法的关键词抽取)
- 基于python语言利用割线法原理求解函数最小值问题
- 自然语言27_Converting words to Features with NLTK