jcseg-1.8.9发布-词性标注+标点切分+IntArrayList优化+bug修复
2013-09-09 15:19
260 查看
jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.
jcseg-1.8.9发布了:
具体更新如下:
1. 保留英文半全角标点和CJK标点符号切分(可通过停止词过滤掉,默认全部过滤掉了).
2. 词性标注. jcseg很早就半支持词性标注了, 这次彻底的完善了下, 当然在你使用这个功能前, 你需要完善词库的词性标注, jcseg的词性标注主要依赖词库来实现. jcseg词性
3. IStringBuffer#deleteCharAt bug修复.
这个感谢网友: xuyi...@gmail.com
4. 修复英文字母和标点组合词(些许组合时无法识别)识别的一个bug.
5. 更改了词库加载时一个问题, 词库重载时, 防止重复加载同义词和词性.
从1.8.8开始, jcseg支持词库更新自动加载, 重复加载会导致词性和同义词的重复追加, 哈, 这个是紧急修复.
6. 基本数据类型存储使用IntArrayList代替了ArrayList, 减少了拆解箱.
jcseg加入了IntArrayList工具来代替, 基本数据类型的ArrayList存储, 减少没必要的拆解箱.
7. 依据网友建议修改了开发帮助文档.
关于jcseg: http://code.google.com/p/jcseg
下载jcseg: http://code.google.com/p/jcseg/downloads/list
感谢网友的建议和反馈, 祝大家工作愉快!
jcseg-1.8.9发布了:
具体更新如下:
1. 保留英文半全角标点和CJK标点符号切分(可通过停止词过滤掉,默认全部过滤掉了).
2. 词性标注. jcseg很早就半支持词性标注了, 这次彻底的完善了下, 当然在你使用这个功能前, 你需要完善词库的词性标注, jcseg的词性标注主要依赖词库来实现. jcseg词性
3. IStringBuffer#deleteCharAt bug修复.
这个感谢网友: xuyi...@gmail.com
4. 修复英文字母和标点组合词(些许组合时无法识别)识别的一个bug.
5. 更改了词库加载时一个问题, 词库重载时, 防止重复加载同义词和词性.
从1.8.8开始, jcseg支持词库更新自动加载, 重复加载会导致词性和同义词的重复追加, 哈, 这个是紧急修复.
6. 基本数据类型存储使用IntArrayList代替了ArrayList, 减少了拆解箱.
jcseg加入了IntArrayList工具来代替, 基本数据类型的ArrayList存储, 减少没必要的拆解箱.
7. 依据网友建议修改了开发帮助文档.
关于jcseg: http://code.google.com/p/jcseg
下载jcseg: http://code.google.com/p/jcseg/downloads/list
感谢网友的建议和反馈, 祝大家工作愉快!
相关文章推荐
- jcseg-1.9.4 发布 - Java轻量级开源中文分词器-检测模式切分
- MIT联手IBM发布超大数据集:100多万短视频,多维度标注
- 词性标注
- python词法分析(分词+词性标注)
- stanford 词性标注中词性的解释
- NLPIR 词性标注的兼容设置
- 词性标注
- 十、半个小时搞定词性标注与关键词提取
- 中文词性标注与viterbi算法
- 词性标注Pos Tagging
- 中英文分词及词性标注工具
- 中文词性标注的简单实现
- 词性标注
- NLP中的词性标注方法
- 【文本挖掘】词性标注记法
- 哈工大ltp词性标注列表和ICTCLAS词性列表
- 自然语言处理基于java实现(2) 之 词性标注
- 基于隐马尔可夫模型的有监督词性标注
- 谷歌发布人类动作识别数据集AVA,精确标注多人动作
- 自然语言处理基础技术之分词、向量化、词性标注