ansj 5.1分词方式测试,存在分词命名实体识别过度的问题
2016-12-14 18:12
274 查看
public static void main(String[] args) {
// TODO Auto-generated method stub
String str = "刘翔洁面仪配合洁面深层清洁毛孔 清洁鼻孔面膜碎觉使劲挤才能出一点点皱纹 脸颊毛孔修复的看不见啦 草莓鼻历史遗留问题没辙 脸和脖子差不多颜色的皮肤才是健康的 长期使用安全健康的比同龄人显小五到十岁 28岁的妹子看看你们的鱼尾纹" ;
System.out.println(BaseAnalysis.parse(str));
System.out.println(ToAnalysis.parse(str));
System.out.println(DicAnalysis.parse(str));
System.out.println(IndexAnalysis.parse(str));
System.out.println(NlpAnalysis.parse(str));
}
分词结果:
刘/nr,翔/nr,洁/ag,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才/d,能/v,出/v,一/m,点点/q,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十/m,岁/q,
,28/m,岁/q,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
刘翔洁/nr,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才/d,能/v,出/v,一点点/m,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m,
,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
刘翔洁/nr,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才能/v,出/v,一点点/m,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m,
,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
刘翔洁/nr,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才/d,能/v,出/v,一点点/m,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m,
,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
十二月 14, 2016 6:09:15 下午 DICLOG info
INFO: init deafult crf model begin !
十二月 14, 2016 6:09:16 下午 org.ansj.app.crf.model.CRFModel loadModel
INFO: load crf model ok ! use time :1281
刘翔洁面仪/nw,配合/v,洁面/nw,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面膜/nw,碎觉/nw,使劲/v,挤/v,才/d,能/v,出/v,一点点/nw,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻历史/nw,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m,
,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
其中刘翔洁面仪 连接到一起了 ,怀疑训练数据的问题
刘翔洁面仪/nw,综合来看github例子加上一个刘翔 ,出来很多问题,好多地方要是使用需要调整,争取元旦前读完全部源代码
// TODO Auto-generated method stub
String str = "刘翔洁面仪配合洁面深层清洁毛孔 清洁鼻孔面膜碎觉使劲挤才能出一点点皱纹 脸颊毛孔修复的看不见啦 草莓鼻历史遗留问题没辙 脸和脖子差不多颜色的皮肤才是健康的 长期使用安全健康的比同龄人显小五到十岁 28岁的妹子看看你们的鱼尾纹" ;
System.out.println(BaseAnalysis.parse(str));
System.out.println(ToAnalysis.parse(str));
System.out.println(DicAnalysis.parse(str));
System.out.println(IndexAnalysis.parse(str));
System.out.println(NlpAnalysis.parse(str));
}
分词结果:
刘/nr,翔/nr,洁/ag,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才/d,能/v,出/v,一/m,点点/q,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十/m,岁/q,
,28/m,岁/q,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
刘翔洁/nr,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才/d,能/v,出/v,一点点/m,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m,
,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
刘翔洁/nr,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才能/v,出/v,一点点/m,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m,
,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
刘翔洁/nr,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才/d,能/v,出/v,一点点/m,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m,
,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
十二月 14, 2016 6:09:15 下午 DICLOG info
INFO: init deafult crf model begin !
十二月 14, 2016 6:09:16 下午 org.ansj.app.crf.model.CRFModel loadModel
INFO: load crf model ok ! use time :1281
刘翔洁面仪/nw,配合/v,洁面/nw,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面膜/nw,碎觉/nw,使劲/v,挤/v,才/d,能/v,出/v,一点点/nw,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻历史/nw,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m,
,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
其中刘翔洁面仪 连接到一起了 ,怀疑训练数据的问题
刘翔洁面仪/nw,综合来看github例子加上一个刘翔 ,出来很多问题,好多地方要是使用需要调整,争取元旦前读完全部源代码
相关文章推荐
- 使用Stanford CoreNLP的Python封装包处理中文(分词、词性标注、命名实体识别、句法树、依存句法分析)
- 学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
- 哈工大ltp,分词,词性标注,命名实体识别技术的特征提取
- HMM算法-viterbi算法的实现及与分词、词性标注、命名实体识别的引用
- 统计自然语言处理梳理一:分词、命名实体识别、词性标注
- 学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
- nlp-形式语言与自动机-ch07-自动分词、命名实体识别与词性标注
- 在gae后台判断数据是否存在 实体的ID DateTime时区的问题
- 中文命名实体识别之学习笔记一(词性标注)
- [VB.NET]VB.net下重命名文件的操作问题,为什么在我重命名文件之后,原始文件仍然存在(在有I/O异常时)
- 基于规则的命名实体识别
- .net2005 控件 id 不能重命名 问题 “如果有一些引用存在于标记中,则不会重命名这些引用”
- 又一怪问题:如果有一些引用存在于标记中,则不会重命名这些引用,要继续吗
- 现行很多企业运维方式存在的问题
- android真机测试时手机不能识别的问题
- 怎样用OpenNLP来实现命名实体识别
- VS解决方案中引用子工程命名空间中的函数无法识别的问题
- 中科院中文分词工具ICTCLAS30进行名实体识别的方法
- Entity Framework中实体模型命名空间的问题
- 现行很多企业IT运维方式存在的问题