用中科院ICTCLAS2015分词器的java接口
2015-11-22 22:22
232 查看
要做中文文本的分类 自然首要步骤就是分词(切词)咯 就用了中科院这个分词工具 一开始下了这个工具 看了说明文档也各种迷茫 各种查各种问后 得到如下调用ICTCLAS2015分词器的java接口的方法
另附:还有一个同学写的方法 http://blog.csdn.net/blockheadls/article/details/49737599#userconsent#
1、在ICTCLAS的官网上下载整个分词器的包,下载链接:http://ictclas.nlpir.org/downloads
2、下载解压后 将G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\sample\JnaTest_NLPIR作为一个工程 导入到eclipse 导入后工程名字为 JnaTest_V1
3、导入后 按照 \JnaTest_NLPIR目录下的 readme.txt 将 G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\Data 拖拽放到 工程JnaTest_V1下
4、ICTCLAS2015提供的java接口用的是jna 就是调用C或C++ 程序的java集成包 所以在该工程中有一个属性文件 nlpir.properties 利用.properties属性文件寻找NLPIR.dll的动态链接库文件和Data目录。Data的路径 就改为之前被拖拽到的路径 可以通过右击Data文件 查看他的属性得到,NLPIR.dll由ICTCLAS提供的有
在它的支持文件里 G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\lib\win64 我的机子是win64 所以NLPIR.dll就在这个路径下 故将 nlpir.properties 中的dll路径改为G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\lib\win64\NLPIR.dll
5、将NlpirTest.java中14行 CLibrary Instance = (CLibrary) Native.loadLibrary(
"G://我的文件//硕士课程//数据挖掘//FenCi//ICTCLAS2015//lib//win64//NLPIR", CLibrary.class); 中的路径 改为你NLPIR.dll所在的路径
6、特别注意 NlpirTest.java中28行 String argu = "D:\\NLPIR"; 将它改为 String argu = "";因为它是下面初始化函数中 Data 路径 的参数 所以要制空 因为我们的Data
放在工程的同目录下
噢啦 到此 就搞完了 就可以运行了
运行结果 :
分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求/v 美方/n 加强/v 对/p 输/v 华/b 玉米/n 的/ude1 产地/n 来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n
,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n 污染/vn 。/wj
增加用户词典后分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求美方加强对输/n 华玉米的产地来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n ,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n 污染/vn 。/wj
删除用户词典后分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求/v 美方/n 加强/v 对/p 输/v 华玉米的产地来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n ,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n
污染/vn 。/wj
关键词提取结果是:华玉米的产地来源#农业部#有关#污染#关键词提取结果是:
另附:还有一个同学写的方法 http://blog.csdn.net/blockheadls/article/details/49737599#userconsent#
1、在ICTCLAS的官网上下载整个分词器的包,下载链接:http://ictclas.nlpir.org/downloads
2、下载解压后 将G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\sample\JnaTest_NLPIR作为一个工程 导入到eclipse 导入后工程名字为 JnaTest_V1
3、导入后 按照 \JnaTest_NLPIR目录下的 readme.txt 将 G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\Data 拖拽放到 工程JnaTest_V1下
4、ICTCLAS2015提供的java接口用的是jna 就是调用C或C++ 程序的java集成包 所以在该工程中有一个属性文件 nlpir.properties 利用.properties属性文件寻找NLPIR.dll的动态链接库文件和Data目录。Data的路径 就改为之前被拖拽到的路径 可以通过右击Data文件 查看他的属性得到,NLPIR.dll由ICTCLAS提供的有
在它的支持文件里 G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\lib\win64 我的机子是win64 所以NLPIR.dll就在这个路径下 故将 nlpir.properties 中的dll路径改为G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\lib\win64\NLPIR.dll
5、将NlpirTest.java中14行 CLibrary Instance = (CLibrary) Native.loadLibrary(
"G://我的文件//硕士课程//数据挖掘//FenCi//ICTCLAS2015//lib//win64//NLPIR", CLibrary.class); 中的路径 改为你NLPIR.dll所在的路径
6、特别注意 NlpirTest.java中28行 String argu = "D:\\NLPIR"; 将它改为 String argu = "";因为它是下面初始化函数中 Data 路径 的参数 所以要制空 因为我们的Data
放在工程的同目录下
噢啦 到此 就搞完了 就可以运行了
运行结果 :
分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求/v 美方/n 加强/v 对/p 输/v 华/b 玉米/n 的/ude1 产地/n 来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n
,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n 污染/vn 。/wj
增加用户词典后分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求美方加强对输/n 华玉米的产地来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n ,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n 污染/vn 。/wj
删除用户词典后分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求/v 美方/n 加强/v 对/p 输/v 华玉米的产地来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n ,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n
污染/vn 。/wj
关键词提取结果是:华玉米的产地来源#农业部#有关#污染#关键词提取结果是:
相关文章推荐
- java对世界各个时区(TimeZone)的通用转换处理方法(转载)
- java-注解annotation
- java-模拟tomcat服务器
- java-用HttpURLConnection发送Http请求.
- java-WEB中的监听器Lisener
- Android IPC进程间通讯机制
- Android Native 绘图方法
- Android java 与 javascript互访(相互调用)的方法例子
- 介绍一款信息管理系统的开源框架---jeecg
- 聚类算法之kmeans算法java版本
- java实现 PageRank算法
- PropertyChangeListener简单理解
- 插入排序
- 冒泡排序
- 堆排序
- 快速排序
- 二叉查找树
- [原创]java局域网聊天系统