一种正向最小匹配的中文分词算法
2011-11-07 12:13
316 查看
///<summary> /// 根据字符串截取存在的词语算法(分词算法) ///</summary> ///<param name="sentence">需要操作的语句</param> ///<returns>所有在中文中存在的词语</returns> #region GetAllWords public ArrayList GetAllWords(string sentence, int subLength) { //截取所有字符串列表 ArrayList wordList = new ArrayList(); CData cd = new CData(mdbPath); for(int i=0;i<sentence.Length-1 ;i++) { for (int j =subLength; j >= 2; j--) { try { //正常截取 string str = sentence.Substring(i, j); //对比数据库,看是否是词 if (cd.ReadDataCount(str) > 0)//如果数据库中有这个词 { wordList.Add(str);//添加到列表 i += str.Length - 1; break; } } catch { //如果截取出界则转到下次循环 continue; } } } return wordList; } #endregion
上面是简单的中文分词的 正向最小截取算法,实验结果太令我失望了,虽然说搜索中文词库的次数减少了,但是,相对遍历每一个词组,搜索的时间却增长了,令我十分不解。望求高手指定迷津
相关文章推荐
- 正向最大匹配中文分词算法
- 正向最大匹配中文分词算法
- 【分词】正向最大匹配中文分词算法
- 【分词】正向最大匹配中文分词算法
- 【分词】正向最大匹配中文分词算法
- 正向最大匹配中文分词算法
- NLP: 中文分词---正向匹配 (Forward Matching)
- 中文分词中的正向最大匹配与逆向最大匹配
- NLP中文信息处理---正向最大匹配法分词
- NLP中文信息处理---正向最大匹配法分词
- 中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析
- 中文分词——正向最大匹配法
- 中文分词 (机械传统方法 )正向最大匹配
- 正向最大匹配中文分词算法
- NLP: 中文分词算法--正向最大匹配 Forward Maximum Matching
- 一个简单最大正向匹配(Maximum Matching)MM中文分词算法的实现
- 中文分词引擎 java 实现 — 正向最大、逆向最大、双向最大匹配法
- 中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析
- 中文分词——正向最大匹配法
- python 中文分词:正向最大匹配