guozhongCrawler的是一个无须配置、便于二次开发
2015-08-11 02:42
453 查看
guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全 面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、 自定义cookie等功能。在处理网站抓取多次后被封IP的问题上,guozhongCrawler采用动态轮换IP机制有效防止IP被封。另外,源码中 的注释及Log输出全部采用通俗易懂的中文。让初学者能有更加深刻的理解
郭钟/GuozhongCrawler
issues: 没有issue
最近提交:
cb360c7cf 优化抓取效率
郭钟 11天前
4cc21be5f 优化爬虫抓取过程出现若干错误问题
郭钟 一个月前
6e491ee2b v1.3.2
郭钟 一个月前
下载zip master分支 代码最近更新:2015-07-31
http://git.oschina.net/woshidaniu/GuozhongCrawler
郭钟/GuozhongCrawler
star 53 | fork 52
暂无描述。issues: 没有issue
最近提交:
cb360c7cf 优化抓取效率
郭钟 11天前
4cc21be5f 优化爬虫抓取过程出现若干错误问题
郭钟 一个月前
6e491ee2b v1.3.2
郭钟 一个月前
下载zip master分支 代码最近更新:2015-07-31
http://git.oschina.net/woshidaniu/GuozhongCrawler
相关文章推荐
- Leetcode #116 Populating Next Right Pointers in Each Node
- guozhongCrawler的是一个无须配置、便于二次开发
- Arachnid包含一个简单的HTML剖析器能够分析包含HTML内容的输入流
- Arachnid包含一个简单的HTML剖析器能够分析包含HTML内容的输入流
- javacoo/CowSwing 丑牛迷你采集器
- javacoo/CowSwing 丑牛迷你采集器
- WebLech是一个功能强大的Web站点下载与镜像工具
- WebLech是一个功能强大的Web站点下载与镜像工具
- 黑马程序员——学习日记之面向对象基础
- spider-web 是爬虫的网页版,使用xml配置
- spider-web 是爬虫的网页版,使用xml配置
- HttpComponents 也就是以前的httpclient项目
- HttpComponents 也就是以前的httpclient项目
- 黑马程序员——学习日记之控制语句练习
- Java网络蜘蛛/网络爬虫 Spiderman
- Java网络蜘蛛/网络爬虫 Spiderman
- JSpider是一个用Java实现的WebSpider
- JSpider是一个用Java实现的WebSpider
- JAVA爬虫 WebCollector
- JAVA爬虫 WebCollector