一篇介绍爬虫的老文章
2009-02-27 10:51
190 查看
<Writing a Web Crawler in the Java Programming Language>
搜索引擎用爬虫(crawler)获取web上的资源,然后对抓下的网页建立索引
作者说的建自己的爬虫的几个原因,我的原因是属于monitor sites
crawler的原理和人们用浏览器浏览网页的原理一样,只不过是automate了这个过程
具体实现流程:在run方法中。维护两个列表 to-search list 和 already-searched list,并考虑了robots exclusion standard
搜索引擎用爬虫(crawler)获取web上的资源,然后对抓下的网页建立索引
作者说的建自己的爬虫的几个原因,我的原因是属于monitor sites
crawler的原理和人们用浏览器浏览网页的原理一样,只不过是automate了这个过程
具体实现流程:在run方法中。维护两个列表 to-search list 和 already-searched list,并考虑了robots exclusion standard
相关文章推荐
- 一篇介绍NStimer深层原理的文章
- 介绍一篇关于session的好文章,写的很详细(jsp-servlet 技术)
- 推荐一篇非常不错的关于Linux系统硬盘、分区及文件系统的基本概念介绍文章
- 转一篇介绍开发嵌入式经验的文章,写得不错,比较中肯,适合一看。
- 介绍一篇关于session的好文章,写的很详细
- 一篇不错的介绍Java Socket编程的文章
- 一篇介绍标签库很详细的文章,可以做为参考手册
- 一篇介绍标签库很详细的文章,可以做为参考手册
- 转载一篇比较详细介绍rails routes的文章
- 介绍Java Socket编程的一篇不错的文章
- 介绍一篇关于session的好文章,写的很详细
- 介绍一篇关于session的好文章,写的很详细(jsp-servlet 技术)
- 推荐一篇非常不错的介绍google日历的文章
- 一篇比较好的介绍方差&偏差概念的文章
- 一篇介绍JSP标签库很详细的文章
- 一篇不错的介绍Java Socket编程的文章
- 一篇不错的介绍Java Socket编程的文章
- [转]一篇关于 Animation 的文章,参数介绍很详细!
- 一篇不错的介绍Java Socket编程的文章
- lucene-一篇分词器介绍很好理解的文章