用stanfordcorenlp在python下的评论抽取和分析
Stanfordcorenlp的安装
1:下载安装JDK 1.8及以上版本。
2:下载Stanford CoreNLP文件,解压。
3:处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2018-02-27根目录下即可(注意一定要下载这个文件,否则它默认是按英文来处理的,无法处理中文语言)。
使用
Python调用StanfordCoreNLP的使用方法:
使用pip安装stanfordcorenlp
简单使用命令:pip install stanfordcorenlp
在Python环境下调用stanfordcorenlp:
一般建议,实际运用时,通常需要做词性分析的数据集都较大,所以给出以下两种导入数据的方式供参考。
1:测试数据较短时,通常采用直接导入,如:
2:测试数据较大,且数据间规范化程度不够,噪声大,此时需要直接将整个未经处理的数据集直接导入且不影响接下来的数据处理(与原数据一致)。通常采用pandas来读取大数据集(常是.csv格式的),如:
引入pandas中dataframe这一主要数据结构来导入数据,如图中的训练集sample.csv,是一个有200个用户对餐厅评价的一个训练集,通过将sample.csv放到程序编辑的目录中即可不用寻找路径直接录入该训练集文件,今后数据分析常用这样的方式。
随后,对导入数据做分析:
呈现结果如上,Stanfordcorenlp运行处理速度较慢,且在一系列训练集抽取和分析的步骤中,着重强调依存句法分析:('Dependency Parsing;'nlp.dependency_parse(comment)。
在处理庞大的数据时,建议使用try except捕获异常以保证程序能够正常地输出。
分析结果如下:
本文仅针对nlp下的依存句法分析,对stanfordcorenlp的其他分析功能并未过多的说明和演示,实际运用中多数情况将针对这一部分,通过对训练集需求标签地抽取作出分析得出结论。
- 点赞
- 收藏
- 分享
- 文章举报
- python append 和 extend 的区别
- python3中的 __new__() 与 __init__()
- python函数修饰器
- cenos上面python3及mysql的安装
- 《Python3程序开发指南(第二版)》例题之多线程文件查找关键词
- python导入模块
- python实现用户好友推荐
- python基于item-item filtering实现话题推荐
- 用python爬取高考网历年高考分数线将数据放入MySQL并绘制图表
- 软件测试基础+测试开发+python+测试工具免费领取
- python自学中的我
- ZZULI 1015: 计算时间间隔 Python
- python起步——可变对象和不可变对象
- Gvim —— win 7 下 vim 环境配置 及python开发常用设置
- 使用python脚本提取OC中写死的字符串方便国际化
- python3利用pandas将csv文件中的数据导入mysql数据库
- 【Python基础操作】1.数据读取(csv,Excel,MySQL)
- Python3.6.2 图形界面模块Tk (Day1)
- 用python+tkinter写个校验和工具
- python selenium+pywin32 实现网页另存为