您的位置:首页 > 编程语言 > Python开发

用stanfordcorenlp在python下的评论抽取和分析

2020-02-17 04:26 716 查看

Stanfordcorenlp的安装


1:下载安装JDK 1.8及以上版本。
2:下载Stanford CoreNLP文件,解压。
3:处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2018-02-27根目录下即可(注意一定要下载这个文件,否则它默认是按英文来处理的,无法处理中文语言)。

使用

Python调用StanfordCoreNLP的使用方法:
使用pip安装stanfordcorenlp
简单使用命令:pip install stanfordcorenlp

在Python环境下调用stanfordcorenlp:
一般建议,实际运用时,通常需要做词性分析的数据集都较大,所以给出以下两种导入数据的方式供参考。

1:测试数据较短时,通常采用直接导入,如:

2:测试数据较大,且数据间规范化程度不够,噪声大,此时需要直接将整个未经处理的数据集直接导入且不影响接下来的数据处理(与原数据一致)。通常采用pandas来读取大数据集(常是.csv格式的),如: 引入pandas中dataframe这一主要数据结构来导入数据,如图中的训练集sample.csv,是一个有200个用户对餐厅评价的一个训练集,通过将sample.csv放到程序编辑的目录中即可不用寻找路径直接录入该训练集文件,今后数据分析常用这样的方式。

随后,对导入数据做分析:
呈现结果如上,Stanfordcorenlp运行处理速度较慢,且在一系列训练集抽取和分析的步骤中,着重强调依存句法分析:('Dependency Parsing;'nlp.dependency_parse(comment)。
在处理庞大的数据时,建议使用try except捕获异常以保证程序能够正常地输出。

分析结果如下:

本文仅针对nlp下的依存句法分析,对stanfordcorenlp的其他分析功能并未过多的说明和演示,实际运用中多数情况将针对这一部分,通过对训练集需求标签地抽取作出分析得出结论。

  • 点赞
  • 收藏
  • 分享
  • 文章举报
敲代码好累噢~ 发布了1 篇原创文章 · 获赞 0 · 访问量 195 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: