您的位置：首页 > 其它

中文分词算法

2016-03-22 09:28 225 查看

中文分词算法现在一般分为三类：基于字符串匹配，基于理解，基于统计的分词。

基于字符串匹配分词：机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配；最大长度匹配和最小长度匹配；单纯分词和分词与标注过程相结合的一体化方法。所以常用的有：正向最大匹配，逆向最大匹配，最少切分法。。。实际应用中，将机械分词作为初分手段，利用语言信息提高切分准确率。优先识别具有明显特征的词，以这些词为断点，将原字符串分为较小字符串再机械匹配，以减少匹配错误率；或将分词与词类标注结合。

基于理解分词：分词同时进行句法语义分析等模拟人对句子的理解，包括分词子系统，句法语义系统，总控部分。总控部分协调下，分词字系统可以获得有关词，句子等的句法和语义信息对分词歧义进行判断。需要大量的语言知识信息。

基于统计：相邻的字同时出现的次数越多，越有可能构成一个词语，对语料中的字组频度进行统计，不需要切词字典，但错误率很高。可以考虑：使用基本词典进行关键词分词，使用统计方法识别新词组，两者结合。

语义理解中文分词：解决一词多义问题，为用户建立个性化数据库

中文分词存在问题：计算机与人对歧义的定义无法统一；字典中未收录的词识别率低。

分词系统判断标准（待解决问题）：歧义识别，新词（未登录词）识别。。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航