用python写的多线程网页爬虫
2015-01-17 13:42
453 查看
学习python才一个星期,学了简单的语法之后,发现python太好用了,一个简单的爬取网页方法仅仅只需要两三行代码。当然,要做一只大型的真正意义上的爬虫还是相当有难度的,为了进一步的熟悉python的一些性质,于是写了一个下载http://desk.zol.com.cn上面壁纸的爬虫,其中使用了HTMLParser模块方法分析页面,从而解析出每一页的入口地址,再根据入口地址分析内页的图片地址,解析内页地址使用了多线程,下载图片也是用的多线程,为了测试多线程爬虫的性能,本程序使用了50个线程分析内页图片地址,100个线程下载图片,整个过程只需要动几下鼠标,分分钟美女图片想要多少有多少,最后记录一下大致数据:
下载图片数量:1000张左右
线程使用:50个线程分析地址+100个线程下载图片+1个主线程
下载耗时:15分钟左右
下载速度:67张/分
平均网速:1M/s
上面只是大致数据,但是使用多线程之后,下载速度确实提高了数倍。好了,闲话少说,下面上酸菜:
源码下载地址:http://download.csdn.net/detail/u010101067/8370785
下载图片数量:1000张左右
线程使用:50个线程分析地址+100个线程下载图片+1个主线程
下载耗时:15分钟左右
下载速度:67张/分
平均网速:1M/s
上面只是大致数据,但是使用多线程之后,下载速度确实提高了数倍。好了,闲话少说,下面上酸菜:
源码下载地址:http://download.csdn.net/detail/u010101067/8370785
相关文章推荐
- 基python实现多线程网页爬虫
- python多线程爬虫抓取网页
- 多线程获取豆瓣网页的网络爬虫(Python实现)
- 多线程网页爬虫 python 实现(二)
- 多线程网页爬虫 python 实现
- 基python实现多线程网页爬虫
- Python爬虫之路——简单网页抓图升级版(增加多线程支持)
- Python之多线程爬虫抓取网页图片的示例代码
- Python 多线程抓取网页 牛人 use raw socket implement http request great
- 采用python的pyquery引擎做网页爬虫,进行数据分析
- Python天气预报采集器实现代码(网页爬虫)
- Python写爬虫——抓取网页并解析HTML
- 网页爬虫(Python)
- Python天气预报采集器(网页爬虫)
- python 多线程采集网页完善版
- Python 多线程抓取网页
- python beautifulsoup多线程分析抓取网页
- python写的爬虫抓取到的网页是乱码解决
- python-常用小程序-网页爬虫
- python写的网页爬虫-scrapy