一个爬电商数据并实现搜索的例子
2013-10-13 14:49
417 查看
这是一个抓取电商商品信息,并提供搜索接口的例子。
采用的技术:
代码管理github
持续集成gradle
web框架rose3.0(基于Spring3.0)
数据库mysql
商品抓取id遍历,Jsoup解析网页
搜索lucene
现在的接口:
抓取数据:http://localhost/spider ,把易迅的数据抓取下来,只抓一万个左右,放在数据库中
生成索引:[u]http://localhost/index[/u] ,把数据库中的数据用lucene来做索引
搜索结果:http://localhost/search?keyword=midea&begin=0&count=20&cate=饮水机&minPrice=100.1&maxPrice=2000
必填:keyword 是关键字,对名称和描述有用,begin和count是对结果翻页
选填:cate是分类,也是用lucene做的索引,还有就是价格区间的选择
搜索建议:http://localhost/suggest?begin=0&count=100&keyword=meiru
是对名称做了最前匹配,包括名称的拼音和首字母
查看所有数据:[u]http://localhost/list?beginId=1&count=100[/u] beginId:开始的id,count:数量
现在的电商中,京东和易迅id是顺序的,amazon和当当的id是hash的,所以我的这个demo只能抓京东和易迅的数据。但是京东的价格不是直接展示在页面上,而是通过js单独发请求得到的,比较麻烦,第一版demo暂时只能抓取易迅的数据。
搜索分搜索建议和搜索结果,搜索建议是把商品名称做了汉子,汉子转换成全拼及首字母的前缀匹配;搜索结果是对商品名称和描述做了全文索引。
github地址 https://github.com/LiuGangR/SpiderAndSearchDemo
gradle很好用,不会自己学学
有建议欢迎讨论
采用的技术:
代码管理github
持续集成gradle
web框架rose3.0(基于Spring3.0)
数据库mysql
商品抓取id遍历,Jsoup解析网页
搜索lucene
现在的接口:
抓取数据:http://localhost/spider ,把易迅的数据抓取下来,只抓一万个左右,放在数据库中
生成索引:[u]http://localhost/index[/u] ,把数据库中的数据用lucene来做索引
搜索结果:http://localhost/search?keyword=midea&begin=0&count=20&cate=饮水机&minPrice=100.1&maxPrice=2000
必填:keyword 是关键字,对名称和描述有用,begin和count是对结果翻页
选填:cate是分类,也是用lucene做的索引,还有就是价格区间的选择
搜索建议:http://localhost/suggest?begin=0&count=100&keyword=meiru
是对名称做了最前匹配,包括名称的拼音和首字母
查看所有数据:[u]http://localhost/list?beginId=1&count=100[/u] beginId:开始的id,count:数量
现在的电商中,京东和易迅id是顺序的,amazon和当当的id是hash的,所以我的这个demo只能抓京东和易迅的数据。但是京东的价格不是直接展示在页面上,而是通过js单独发请求得到的,比较麻烦,第一版demo暂时只能抓取易迅的数据。
搜索分搜索建议和搜索结果,搜索建议是把商品名称做了汉子,汉子转换成全拼及首字母的前缀匹配;搜索结果是对商品名称和描述做了全文索引。
github地址 https://github.com/LiuGangR/SpiderAndSearchDemo
gradle很好用,不会自己学学
有建议欢迎讨论
相关文章推荐
- Scrapy的架构介绍
- 我是运营,我没有假期
- 搜狗百度360市值齐跌:搜索引擎们陷入集体焦虑?
- 本人即将筹备败家日志,敬请期待!
- IE:使用搜索助手
- DB2数据库的安装
- “传奇”图象数据存储方式
- 修复mysql数据库
- SQLServer 数据导入导出的几种方法小结
- MySQL数据备份之mysqldump的使用详解
- 给你的数据库文件减肥
- 把excel表格里的数据导入sql数据库的两种方法
- 基于文本的搜索
- 用文本作数据处理
- 桌面中心(一)创建数据库
- 使用Sphinx对索引进行搜索
- 桌面中心(四)数据显示
- SQL Server Management Studio Express管理器 没有导入导出数据的向导的解决方法
- ASP.NET页面间数据传递的几种方法介绍
- ASP 循环导入导出数据处理 不使用缓存