《搜索引擎原理、技术与系统》读书笔记(2)——分词算法
2008-12-10 21:00
288 查看
“基于字典的机械分词”是最基本的分词法。“机械”是强调:分词算法不进行语法分析,也不会尝试建立语义网络。“基于字典”说明算法的效果依赖于字典的质量和容量。当然太大的字典又会造成速度上的问题。另有一类不依赖于字典的分词算法,使用基于概率的聚类法聚字成词。
两个基础的算法是MM(最大匹配)和RMM(逆向最大匹配)。二者的区别仅仅在于扫描的方向。最大匹配的算法描述起来非常简单:从当前位置开始,寻找最长的一个合法的单词。有资料称RMM对汉语分词的准确率高于MM。但二者其实是半斤八两,实验错误率分别是1/245和1/169,都处在一个不甚理想的数量级上。
综合使用MM和RMM可以取得更高的正确率:如果二者分词的结果不同,采信出现概率更大的一种分词发。这里的概率可以通过单词共同出现的贝叶斯概率表来计算。
另外,对于算法的复杂度问题我尚有疑问:使用Trie树和KMP算法,MM分词应该可以在O(N)时间完成,N为文章长度。但我所读到的资料大都暗示,此算法的时间复杂度没有这么简单。是我搞错了什么吗?
对机械分词算法的改进大多在词典上作文章。比如使用二级词典:一部基本词典和一部符合短语词典——收录词语间的固定搭配。其实词语的颗粒度本身就是难于把握的。此外可以使用专用的算法处理人名、地名等。新词收录和缩写词/同义词处理也是伤脑筋的问题。
“分词水很深”——某博。
相关文章推荐
- 《搜索引擎原理、技术与系统》读书笔记(1)
- 第二章: 社会 - 技术系统 - <软件工程> - [读书笔记]
- 读书笔记之搜索引擎—原理、技术与系统
- 开发基于约束条件的推荐系统---《推荐系统技术、评估及高效算法》---读书笔记(6)
- 推荐系统评估---《推荐系统技术、评估及高效算法》---读书笔记(8)
- Android技术内幕系统卷--读书笔记(二)
- 情境感知(上下文信息)推荐系统---《推荐系统技术、评估及高效算法》---读书笔记(7)
- 《SOA思想、技术与系统集成应用详解》《SOA核心技术应用》读书笔记五-SCA组件、模块、域
- 《SOA思想、技术与系统集成应用详解》《SOA核心技术应用》读书笔记五-SCA组件、模块、域
- 基于内容的推荐系统---《推荐系统技术、评估及高效算法》---读书笔记(3)
- 协同过滤算法的高级课题---《推荐系统技术、评估及高效算法》---读书笔记(5)
- 推荐系统中的数据挖掘方法---《推荐系统技术、评估及高效算法》---读书笔记(2)
- 基于近邻推荐方法综述---《推荐系统技术、评估及高效算法》---读书笔记(4)
- 推荐系统基本概念---《推荐系统技术、评估及高效算法》---读书笔记(1)
- 广西移动BOSS系统应急容灾及查询平台建设(RealSync数据库同步复制容灾技术)
- 揭秘换肤技术:实现系统滚动条换肤功能
- 老马的技术博客 android系统通过图片绝对路径获取URI的三种方法
- Delphi.NET多层应用系统开发技术研讨会
- 某大型银行深化系统之十四:技术架构
- 如何做Vpay系统定制开发?区块链技术应用