您的位置:首页 > 其它

jcseg-1.8.9发布-词性标注+标点切分+IntArrayList优化+bug修复

2013-09-09 15:19 260 查看
jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.8.9发布了:

具体更新如下:

1. 保留英文半全角标点和CJK标点符号切分(可通过停止词过滤掉,默认全部过滤掉了).

2. 词性标注. jcseg很早就半支持词性标注了, 这次彻底的完善了下, 当然在你使用这个功能前, 你需要完善词库的词性标注, jcseg的词性标注主要依赖词库来实现. jcseg词性

3. IStringBuffer#deleteCharAt bug修复.

这个感谢网友: xuyi...@gmail.com

4. 修复英文字母和标点组合词(些许组合时无法识别)识别的一个bug.

5. 更改了词库加载时一个问题, 词库重载时, 防止重复加载同义词和词性.

从1.8.8开始, jcseg支持词库更新自动加载, 重复加载会导致词性和同义词的重复追加, 哈, 这个是紧急修复.

6. 基本数据类型存储使用IntArrayList代替了ArrayList, 减少了拆解箱.

jcseg加入了IntArrayList工具来代替, 基本数据类型的ArrayList存储, 减少没必要的拆解箱.

7. 依据网友建议修改了开发帮助文档.

关于jcseg: http://code.google.com/p/jcseg
下载jcseg: http://code.google.com/p/jcseg/downloads/list

感谢网友的建议和反馈, 祝大家工作愉快!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: