中文词典的扩充和组织
2011-11-10 19:14
197 查看
中文词典的扩充和组织
楼主gdding()2006-09-04 22:21:44 在 专题开发/技术/项目 / 搜索引擎技术 提问分词技术是
中文信息处理中的关键技术之一,是信息检索、文本分类、文本聚类等各种文本处理技术的基础。目前中文分词算法逐渐趋于成熟,其分词准确率已基本能满足应用需求。
词典在 分词技术中扮演着至关重要的角色。一方面,词典的规模(收录的词条数目)是影响分词准确率的一个重要因素。目前的词典规模都在10万个词条左右,只能满足 于一般的文本(如传统的新闻报道等);随着Internet的广泛普及,日益增加的未登录词对分词技术是一个巨大的挑战,传统的中文词典已越来越难对付目
前对Internet文本的分词要求,因此扩充中文核心词典是一个十分有意义的事情。
我最近的一个工作就是新词检测,不寻求优美的检测算法,而只追求最终的效果。 通过对北大天网CWT100G数据集的统计分析,我已经抽取了近100万个新词(当然有一些噪音),其中根据我的评价方法得分最高的前10万条左右的新词
效果相当不错。感兴趣的同志请与我联系:gdding@hotmail.com。以下是其中的一部分新词(其中右列为评分值):
保险公司 102.1217630598
老夫 101.4161935225
千万 101.3831813758
玩家 99.8747389063
网络游戏 99.2633686672
贝克汉姆 98.6127246394
百万 97.8989631474
萨达姆 97.5115719667
律师事务所 97.4145752689
信息技术 96.6513122347
微软 96.0803421691
姚明 95.9885301657
新技术 95.9283498033
帮主 94.3097484228
化成 94.2552672475
放入 94.2174890261
闻言 94.0920991382
短信 94.0665508006
中国足球 93.9756640568
航空公司 93.3904036729
公司总经理 93.3007389538
解决方案 92.9160832220
主管部门 92.8771068835
冷冷 92.6888841223
管理部门 92.6264385327
数百 92.4165308552
系列产品 92.4150737852
基础设施 92.4018776391
管理系统 92.3439132146
证券市场 92.2664635335
点击 92.2370180445
什麽 91.9666818061
学家 91.9266075102
中国市场 91.7831884230
道长 91.7680148179
新产品 91.7312686223
万元 91.6393529512
掌门 91.5954090766
拉住 91.4054745027
部份 91.3910453982
剑法 91.3175642456
抱住 91.2809315778
小白 91.0912774799
安全生产 90.8164919757
高达 90.8024993815
皇马 90.6885143725
数码相机 90.6165621700
证券公司 90.5219773434
副主任 90.3355731737
国际市场 90.2767902975
信息系统 90.2392757515
送回 90.1219871204
金融机构 90.1152273859
产品质量 90.1095372176
环境保护 89.8504855693
摇摇头 89.8206738428
风险投资 89.5960110694
经济增 长
89.5194082573
公安机关 89.5085702094
领导干部 89.4859910310
米卢 89.4656572355
链接 89.4646065803
词典在分词技术中扮演的重的角色还体现在,词典的存储组织方式是影响分词速度的关键因素,对于静态词典来说,采用双数组TRIE树来词典组织是非常不错的 选择,这种组织方式使得在查找词条时只需要作几次加法即可判断一个词条是否在词典中,因此查找速度极快,再加上词典的装载开销很小(只是读入数据而已), 且很少占用内存,因此十分适合中文分词;本人最近的试验标明,基于双数组TRIE树来组织词典,最大匹配分词的速度可达52MB/秒(测试环境:CPU P4 3.2G,内存512MB)。本人将在后续的文章中介绍这种词典组织方法,并将本人写的词典管理和最大匹配程序打包,供各位同仁共享。感兴趣的读者可与我
联系:gdding@hotmail.com。
相关文章推荐
- 中文词典的扩充和组织
- Lucene-IKAnalyzer(中文分词)基于配置的词典扩充
- IKAnalyzer词典扩充
- IK中文分词扩展自定义词典【源码解析:文中是Configuration类,但是我的是Configuration接口,DefaultConfig类,可能ik版本不一致】
- 中文组织机构名与简称的识别
- 中文 停用词 词典
- 中文分词词典构造简述
- Elasticsearch之插件es ik配置自定义中文分词词典
- 满江红开放技术研究组织发布Seam 2.0中文文档RC版
- 用delphi生成GBK 中文编码 表(4~5) GBK/4~5: 0xAA40~0xFEA0(部分) 扩充汉字 包括繁体 0xA
- CCNA中文词典
- 用delphi生成GBK 中文编码 表(4~5) GBK/4~5: 0xAA40~0xFEA0(部分) 扩充汉字 包括繁体 0xA
- 《Drools6.4 中文文档》第18章18.3 管理(组织单元&资源库)
- 中文参考手册6(MySQL与标准的兼容性)对ANSISQL92扩充
- Mac上的词典扩充
- kindle 3中文无乱码、改默认词典、增加屏保及截屏快捷键等
- 《Drools6.4 中文文档》第18章18.3 管理(组织单元&资源库)
- 热烈祝贺Polymer中文组织站点上线
- 满江红开放技术研究组织 Seam 2.0 参考手册中文翻译人员招募
- C++里创建 Trie字典树(中文词典)(二)(插入、查找、导入、导出)