coreseek分词词表那些事
2016-08-09 16:44
169 查看
0. 默认词表
coreseek会自带一个分词词表,一般位于/usr/local/mmseg3/etc/uni.lib
对应的明文原始词表一般位于
/usr/local/mmseg3/etc/unigram.txt
1. 原始词表文件格
格式如下:暂无 1 x:1 喜羊羊 1 x:1 灰太狼 1 x:1 懒羊羊 1 x:1
php中,可以用下面函数将一个key转为原始词表文件中的一条
function _format($key){ return sprintf("%s\t1\nx:1\n", $key); }
2. 词表文件(.lib文件)生成
假设有原始词表文件dict.txt,执行下面的命令mmseg -u dict.txt
会生成名为dict.txt.uni的词典文件。
若要此文件生效,需要
1. 将其重命名为uni.lib
2. 将uni.lib放到配置文件中charset_dictpath指定的目录
3. 重建索引
4. 重启searchd
3.关于词的长度
mmseg默认支持单个最大词长为5个UTF-8汉字。原始词表中的词若大于此长度,在生成词表时会被截断。如果需要修改,可以如下操作:1. 找到coreseek源代码目录下的mmseg-**/src/csssegmenter.cpp文件
#define MAX_TOKEN_LENGTH 15 //3*5
将MAX_TOKEN_LENGTH改为你需要的值
2. 重启编译mmseg及coreseek
3. 重新生成词表
4. 可能的问题
charset_dictpath目录中不但要有一份词典文件,还要有mmseg.ini,否则无法正常工作。原始词表中如果有非法字符,会导致无法建重建索引。生成原始词表时,可以用下面的php函数对key进行过虑
function _check($key) { //只有utf8的汉字,字母组成的串才是合法的 if (!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z]+$/u", $key)){ return false; } return true; }
相关文章推荐
- Java 理论和实践:我必须对那些内容进行文档编制吗?
- Python-Django中的那些命令
- linux驱动开发要知道的那些知识(一)--module,内存管理
- 2004最具人气十大网络歌曲---献给那些为了自己的理想而拼搏的人
- iOS开发中那些高效常用的宏
- GitHub 上那些值得一试的 Java 开源库
- 强烈鄙视那些虚伪的垃圾
- 那些身边的搜索框---Day02
- web开发有那些牛逼东西可以用
- 今天做互联网六年整 那些人和事……
- 自动化的那些不为人知的事
- 那些html标签不能嵌套自己的标签了?
- 电脑操作最忌讳那些小动作
- 如何不被程序员(RD)们嫌弃--写给那些血气方刚的产品经理(PM)
- 关于Linux文件的那些事情之二
- 一段真实的个人经历, 给那些迷失方向的朋友[转帖]
- struts2中Convention plug-in中的那些事情
- iOS那些“垃圾”的轮播
- [转]那些在中国改革开放中消失的职业
- 那些琐碎的知识-----搜索回车跳转页面