您的位置：首页 > 其它

coreseek分词词表那些事

2016-08-09 16:44 169 查看

0. 默认词表

coreseek会自带一个分词词表，一般位于

/usr/local/mmseg3/etc/uni.lib

对应的明文原始词表一般位于

/usr/local/mmseg3/etc/unigram.txt

格式如下：

暂无    1
x:1
喜羊羊  1
x:1
灰太狼  1
x:1
懒羊羊  1
x:1

php中，可以用下面函数将一个key转为原始词表文件中的一条

function _format($key){
return sprintf("%s\t1\nx:1\n", $key);
}

假设有原始词表文件dict.txt，执行下面的命令

mmseg -u dict.txt

会生成名为dict.txt.uni的词典文件。

若要此文件生效，需要

1. 将其重命名为uni.lib

2. 将uni.lib放到配置文件中charset_dictpath指定的目录

3. 重建索引

4. 重启searchd

mmseg默认支持单个最大词长为5个UTF-8汉字。原始词表中的词若大于此长度，在生成词表时会被截断。如果需要修改，可以如下操作：

1. 找到coreseek源代码目录下的mmseg-**/src/csssegmenter.cpp文件

#define MAX_TOKEN_LENGTH 15 //3*5

将MAX_TOKEN_LENGTH改为你需要的值

2. 重启编译mmseg及coreseek

3. 重新生成词表

charset_dictpath目录中不但要有一份词典文件，还要有mmseg.ini，否则无法正常工作。

原始词表中如果有非法字符，会导致无法建重建索引。生成原始词表时，可以用下面的php函数对key进行过虑

function _check($key) {
//只有utf8的汉字，字母组成的串才是合法的
if (!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z]+$/u", $key)){
return false;
}

return true;
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： coreseekm sphinx mmseg 分词词表

相关文章推荐

新的分享

章节导航