扩展分词列表检索:暗含检索时提高相关性,更容易排除杂质,剔出仅有关键字但不相关的文字
2007-07-24 03:10
225 查看
最近两个月研究了相关度搜索引擎的一些知识,对Xapian和Omega(一个基于Xapian的应用)的代码进行了一定量的修改,开发出了一款轻量级的基于中文字典词库的相关度搜索引擎。
这个搜索引擎的功能是:从数据库的一个表中取出内容字段的数据,利用基于中文字典词库的分词算法,建立这些数据的索引。根据索引,我们可以检索到与某条记录相关的其它记录,以及扩展分词列表。
扩展分词列表的概念是负责eYou邮件网关算法的同事介绍的,她认为仅凭一个分词找到相关记录的算法过于刻板,应该是先找到与这个分词语义最相关的一组分词,然后针对这组分词进行更精确的搜索。
上图是我将占座网随笔数据导入后的查询结果,这是一个demo页面的截图,第一篇ID为105121的文章的相关文章从第二行开始列出,看起来效果还算可以。
原文:http://www.rainway.org/index.php/2006/05/24/a-relevance-seach-engine-based-on-xapian/
这个搜索引擎的功能是:从数据库的一个表中取出内容字段的数据,利用基于中文字典词库的分词算法,建立这些数据的索引。根据索引,我们可以检索到与某条记录相关的其它记录,以及扩展分词列表。
扩展分词列表的概念是负责eYou邮件网关算法的同事介绍的,她认为仅凭一个分词找到相关记录的算法过于刻板,应该是先找到与这个分词语义最相关的一组分词,然后针对这组分词进行更精确的搜索。
上图是我将占座网随笔数据导入后的查询结果,这是一个demo页面的截图,第一篇ID为105121的文章的相关文章从第二行开始列出,看起来效果还算可以。
原文:http://www.rainway.org/index.php/2006/05/24/a-relevance-seach-engine-based-on-xapian/
相关文章推荐
- MySql模糊匹配、全文检索、中文分词相关
- ppwjs之bootstrap文字排版:<dl>元素相关(定义列表)
- 对一段文字进行分词, 查找关键字然后关键字词频统计
- oracle分表分区提高检索速度的相关方法
- ECSHOP模糊分词搜索和商品列表关键字飘红功能
- 提高级源码:三柱汉诺塔相关扩展问题(百度帖吧)
- SHOP++中文分词检索词库扩展
- ECSHOP模糊分词搜索和商品列表关键字飘红功能
- java提高篇之关键字final
- 说说程序员、博客、论坛及个人专业相关知识的提高
- ASP.NET MVC 扩展相关
- python:4:列表基本用法及相关函数(2)
- 全文检索Lucene(三)----查询,分词器,排序,过滤,高亮
- html滚动列表、表格、文字等等
- Yii后台列表直接更新扩展phaActiveColumn
- 合并链表和求1+2+...+n不用循环、乘除法、循环、条件判断、选择相关的关键字
- 浅析PHP安装扩展mcrypt以及相关依赖项(PHP安装PECL扩展的方法)
- Button扩展相关
- SCWS分词扩展在windows下的安装方法
- Lucene中文分词以及关键字的高亮