近期做了一个自己主动纠错演示网页
2015-12-17 18:28
211 查看
近期做了一个自己主动纠错演示网页:nfabo.cn
当 Query 中有一些错别字时,搜索引擎会尝试纠错
通过相似拼音纠错
搜索引擎把这些字还原成拼音,用一个拼音同样的已知 Query 取代。可是,当输错的汉字是多音字。特别是有多个这种错误输入时,全部的搜索引擎基本上都无论。 或者仅使用一个最经常使用的音去纠错。
由于要考虑全部可能的拼音组合,在极端情况下会导致指数爆炸!
我的算法攻克了这个指数爆炸问题
这个演示页面眼下仅仅收录了 800万 条 短语+词频。数据也不太干净该算法所有在内存中执行,使用了 360M 内存。这个数据量,假设用传统方法暴力实现,而且达到这个性能,须要
几十GB 的内存
这个server是一个租用的虚拟云主机,单核,比我2009年的笔记本电脑还要慢 3 倍
基于编辑距离的纠错
在已知的搜索词中寻找编辑距离与用户Query 最小的词,使用我的算法也能够高效解决(还没做演示页面)
相关文章推荐
- Spring缓存中获取单例bean
- Android仿淘宝购物车
- C语言条件编译及编译预处理阶段
- 【Unity3D自学记录】利用代码改动图片属性(Inspector)
- 好的学习习惯-阅读方法有哪些?
- 小学四则运算APP 第二阶段冲刺
- Spark Streaming 订单关联案例剖析
- iOS storyboard 修改frame问题
- groovy笔记
- 一个Hadoop的小例子
- jvm 堆栈方法区数据存放和操作流程
- java中的内部类程序实例
- Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc
- 设计模式之单例模式
- js 中时间大小比较和合法性校验check(时分校验,年月日时分秒校验,年月日时分校验)
- 程序员日常-3
- 学习Canvas绘图与动画基础 绘制直线(二)
- mongoVUE对mongodb常用的基础操作
- iOS中延时执行的几种方式的比较和汇总
- js check IP 端口校验