关于站内搜索的方案对比
2007-11-22 16:20
260 查看
基于数据库的搜索 | 基于spider抓取的站内搜索 | 全文检索站内搜索软技术 | |
网站 | 大部分网站,如中文BT联盟 | 部分中大型网站如俺要下载软件网 | 少量大型网站,如华军网 |
技术原理 | 数据库搜索 | 经Spider抓取网页,对html解析/分词/索引实现网页式站内搜索 | 对数据库数据进行html解析、分词,索引,实现站内搜索 |
数据容量 | 小于百万级 | 千万级以上 | 千万级以上 |
检索效率 | 秒级速度,准确度高, | 毫秒级速度,高速,准确度低 | 毫秒级速度,高速,准确度高 |
检索能力 | 不支持分词功能,无法完成全文检索,但可以用sql的单字索引功能实现最低级的全文检索 | 支持分词功能,但随数据量增加,搜索结果中垃圾信息比重上升,影响结果的排序和显示效果,严重影响精确度。只对静态页面进行搜索,动态页面数据无法抓取 | 支持分词功能,可对过关键字进行检索,可基于内容分析的排序方法。所有动态网页和没有链接的网页均可有效收录 |
抗压能力 | 差,随数据量上升,数据库压力增大,系统崩溃的危险系数高 | 抗压能力强,系统安全系数高 | 抗压能力强,系统安全系数高 |
结果精度 | 用户对搜索范围、内容和体现的结果无法精确控制 | 用户对搜索范围、内容和体现的结果无法精确控制 | 用户可对搜索的内容范围和体现的结果进行精确的控制 |
内容范围 | 可控制 | 不可有效控制,栏目无法精确控制 | 可有效控制,栏目控制精准 |
动态摘要 | 无 | 摘要内容不清晰各种垃圾信息过多 | 提供动态摘要,摘要清晰精确,便于用户快速寻找到所需信息 |
其他功能 | 1、无关键字飘红 2、无同义词搜索 3、可实现相关性排序 | 1、有关键字飘红 2、无同义词搜索 3、可实现相关性排序 4、支持标准的国际搜索语法。 5、二次开发成本高 | 1、有关键字飘红 2、有同义词搜索 3、可实现相关性排序 4、支持标准的国际搜索语法 5、持续升级能力,可提供良好的售后服务 |
相关文章推荐
- 空间搜索(圆范围)中Geohash编码方案和网格编码方案对比探讨
- 关于全文搜索的技术方案
- 关于strut1 对比 servlet 的内部原理及相关实现方案
- 站内搜索应用的方案设计的分析和总结
- 关于Google站内搜索
- 关于谷歌香港无法进行搜索的替代方案
- 认真思考评估站内全文搜索方案
- wordpress站内搜索优化方案:伪静态、剔除无关内容
- 关于站内搜索的一些笔记
- 关于站内搜索的那些事儿
- 关于本博客的站内搜索问题
- 高可用开源方案 Keepalived VS Heartbeat对比
- 关于Jeecg互联网化dubbo改造方案(下)
- 关于 input 输入搜索的优化
- 使用Lucene+Paoding构建SSH2系统的站内搜索
- 关于手机等品牌型号搜索与采集的中文分词分离
- 关于读取Unity 配置的方案
- 从网上搜索到的一些关于pcap源代码,入门级的
- 关于若干数据库数据插入性能的对比分析
- 关于C#线程,线程池和并行运算的简单使用和对比