介绍一本搜索引擎爬虫方面的好书
2010-07-07 14:22
316 查看
这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。
市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。
而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的,目前已绝版。此书可说是非常珍贵
这是china-pub的链接http://www.china-pub.com/6565
![](http://hi.csdn.net/attachment/201007/7/0_1278482415MPvp.gif)
进了作者Jeff Heaton的博客http://www.jeffheaton.com/,下到了源代码,作者一直在更新,所以源代码可以在JDK6.0上正常运行。速度很快。
相比如其他几款开源爬虫,本书的bot程序无疑更加简单,灵活,快速。
heritrix太复杂,设计的比较乱。当时自己配置了很久。
nutch自己的定制性不够好,url以二进制形式保存,管理起来很不方便。
书中的bot通过实现IWorkloadStorable接口的类来管理url链接,书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload,一个在数据库中管理url,另一个在内存中管理url。
另外书中的爬虫设计上也更好,自己画了张类图
![](http://hi.csdn.net/attachment/201007/7/0_1278482920vRRV.gif)
很佩服作者,那时还没有HTML Parsers,所以作者自己写了个实现。如果现在自己用的话,可以做个小小的修改,用更好的开源html解析工具。。
另外书中也提到了基于表单、https、Cookies的爬虫,大开眼界。以前自己也写过很多爬虫,但在设计中总是缺少扩展性。
书中的bot程序也可以放在Hadoop运行,变成更加强大的分布式爬虫。比如:基于ProActive的分布式并行Web Spider的设计与实现
看这本书的时候也发现自己学的网络知识终于派上了用场,多线程也显得很重要,需要有更多的考虑,而不是一味的run。
本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识,不管是不是搜索方面的开发者,都值得一读。
市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。
而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的,目前已绝版。此书可说是非常珍贵
这是china-pub的链接http://www.china-pub.com/6565
![](http://hi.csdn.net/attachment/201007/7/0_1278482415MPvp.gif)
进了作者Jeff Heaton的博客http://www.jeffheaton.com/,下到了源代码,作者一直在更新,所以源代码可以在JDK6.0上正常运行。速度很快。
相比如其他几款开源爬虫,本书的bot程序无疑更加简单,灵活,快速。
heritrix太复杂,设计的比较乱。当时自己配置了很久。
nutch自己的定制性不够好,url以二进制形式保存,管理起来很不方便。
书中的bot通过实现IWorkloadStorable接口的类来管理url链接,书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload,一个在数据库中管理url,另一个在内存中管理url。
另外书中的爬虫设计上也更好,自己画了张类图
![](http://hi.csdn.net/attachment/201007/7/0_1278482920vRRV.gif)
很佩服作者,那时还没有HTML Parsers,所以作者自己写了个实现。如果现在自己用的话,可以做个小小的修改,用更好的开源html解析工具。。
另外书中也提到了基于表单、https、Cookies的爬虫,大开眼界。以前自己也写过很多爬虫,但在设计中总是缺少扩展性。
书中的bot程序也可以放在Hadoop运行,变成更加强大的分布式爬虫。比如:基于ProActive的分布式并行Web Spider的设计与实现
看这本书的时候也发现自己学的网络知识终于派上了用场,多线程也显得很重要,需要有更多的考虑,而不是一味的run。
本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识,不管是不是搜索方面的开发者,都值得一读。
相关文章推荐
- [zt]介绍一本搜索引擎爬虫方面的好书
- 介绍一本好书《海量数据库解决方案》
- 搜索引擎分布式爬虫介绍
- 介绍一本好书《海量数据库解决方案》
- 第三百四十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第1章 课程介绍
- 【搜索引擎基础知识2】网络爬虫的介绍 2014-05-16 14:10 395人阅读 评论(0) 收藏
- 【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
- 【搜索引擎基础知识2】网络爬虫的介绍
- 第三百五十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装
- 【搜索引擎基础知识2】网络爬虫的介绍
- 介绍四本SOA方面的好书
- 人工智能60年:介绍深度学习的一本好书
- 【搜索引擎基础知识2】网络爬虫的介绍
- 介绍linux及编程的一本好书(Linux操作系统应用及编程)
- 一本需要购买的图形学方面的好书:GPU精粹——实时图形编程的技术、技巧和技艺(附CD-ROM光盘一张)
- 【搜索引擎基础知识2】网络爬虫的介绍
- 一本介绍开源软件设计思路的好书
- python搜索引擎和爬虫框架介绍
- [原创]一种基于Python爬虫和Lucene检索的垂直搜索引擎的实现方法介绍