Python爬虫学习笔记——自动爬取XX网站,下载种子,封面,番号
2016-11-30 15:03
2081 查看
2016-1202更新:这部分代码已经完成,实现了下载全部封面,种子URL;改变IP防止服务器封禁等。详细见知乎回答——
http://www.zhihu.com/question/27621722/answer/133705335
[b]代码在回答的最后的github链接中
[/b]
今天爬取1024核工厂的网站,一开始不设置Header的话,直接返回403,拒接访问,所以必须加上头。
另外在Accept-Encoding这里设置为 identity 的话,本意是设置不允许压缩文件,但是再用postman测试时,发现网站总是返回gzip压缩后的文件。本来以为需要解压的,没想到requests已经完成了这一步骤。
然后bsObj还是乱码,原来是编码问题,网站编码为‘utf-8’,但是调试时输入start_html.encoding,结果是ISO什么解码格式。所以强制‘utf-8’方式解码,完美解决。
下面是爬出的结果:
这是文件夹目录,每个文件夹内有一个TXT文档,文档里记录了子页面的地址。
下一步要从子页面上把torrent和封面下载到这些文件夹中去,加油。
http://www.zhihu.com/question/27621722/answer/133705335
[b]代码在回答的最后的github链接中
[/b]
今天爬取1024核工厂的网站,一开始不设置Header的话,直接返回403,拒接访问,所以必须加上头。
另外在Accept-Encoding这里设置为 identity 的话,本意是设置不允许压缩文件,但是再用postman测试时,发现网站总是返回gzip压缩后的文件。本来以为需要解压的,没想到requests已经完成了这一步骤。
然后bsObj还是乱码,原来是编码问题,网站编码为‘utf-8’,但是调试时输入start_html.encoding,结果是ISO什么解码格式。所以强制‘utf-8’方式解码,完美解决。
#!/usr/bin/env python3 # -*- coding: utf-8 -*- from bs4 import BeautifulSoup import requests ##导入requests headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", 'Accept':"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", 'Accept-Encoding':'gzip', } URL_1024="http://x3.1024lualu.click/pw/thread.php?fid=22" start_html = requests.get(URL_1024, headers=headers) start_html.encoding='utf-8' bsObj = BeautifulSoup(start_html.text,'html.parser')
下面是爬出的结果:
这是文件夹目录,每个文件夹内有一个TXT文档,文档里记录了子页面的地址。
下一步要从子页面上把torrent和封面下载到这些文件夹中去,加油。
相关文章推荐
- python学习笔记(14)--爬虫下载漫画图片修改版
- python学习笔记(10)--爬虫下载煎蛋图片
- python数据分析与挖掘学习笔记(6)-电商网站数据分析及商品自动推荐实战与关联规则算法
- python爬虫:下载百度贴吧图片(多页)学习笔记
- python学习笔记(12)--爬虫下载煎蛋网图片
- python学习笔记(11)--爬虫下载漫画图片
- python自学笔记(8)--Python简单爬虫从网站上下载图片和用第三方库request实现百度翻译
- python数据分析与挖掘学习笔记(6)-电商网站数据分析及商品自动推荐实战与关联规则算法
- Python学习笔记:爬虫下载图片
- python学习笔记(8)--爬虫下载占位图片
- python爬虫:下载百度贴吧图片学习笔记
- python学习笔记(一)爬虫实战:图片自动下载器
- Python爬虫框架Scrapy 学习笔记 5 ------- 使用pipelines过滤敏感词
- Python小爬虫-自动下载三亿文库文档
- python 网站爬虫 下载在线盗墓笔记小说到本地的脚本
- Python爬虫框架Scrapy 学习笔记 7------- scrapy.Item源码剖析
- [Python]网络爬虫学习笔记,爬取东南大学SEU-wlan的流量使用情况
- Python 爬虫学习 网页图片下载
- [Python]网络爬虫学习笔记,爬取豆瓣妹子上妹子的照片
- Python学习笔记23:Django搭建简单的博客网站(一)