Python爬虫入门<二>—模拟浏览器
2018-03-31 17:45
507 查看
模拟浏览器
标签: python爬虫 模拟浏览器1.为什么要模拟浏览器
其实,我们访问一一些需要登录的网站的时候,我们的到的请求是由浏览器发出来的,所以我们做爬虫的时候,需要模拟浏览器的环境,从而的到响应。2需要的工具
其实,在做爬虫的时候,我们需要工具去进行抓包,这里我用的谷歌浏览器自带的抓包工具,大家也可以用fidder,当然还有很多人喜欢用火狐(据说好用)
我就用谷歌浏览器了(嘻嘻)
那我们就用豆瓣来模拟(都喜欢用豆瓣)
3编写代码访问
import urllib.request def savefile(data): path = "C:\\Users\\Administrator\\Desktop\\爬虫豆瓣.txt" f = open(path ,'wb+') f.write(data) f.close() url = "https://www.douban.com/" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'} request = urllib.request.Request(url=url,headers=headers) response = urllib.request.urlopen(url) data = response.read() savefile(data)
HTTP文件详解
相关文章推荐
- Python爬虫入门<五>—DebugLog
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
- Python脚本控制的WebDriver 常用操作 <二> 关闭浏览器
- Python 爬虫入门<四>——代理服务器
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
- Python脚本控制的WebDriver 常用操作 <七>浏览器前进和后退操作
- Linux 入门常用命令<二>
- Python入门<一>
- Python爬虫----爬虫入门(4)---urllib2 模拟登陆
- python爬虫入门(五)Selenium模拟用户操作
- PYTHON 3 爬虫出现<urlopen error no host given> 问题
- 分析python处理基本数据<二>
- Python爬虫---------------<妹子图>图片抓取(1)
- <scrapy>python 爬虫框架scrapy安装
- python爬虫上手 笔记<1>
- <python快速入门>读书笔记
- 【python爬虫专题】解析方法 <4> BeautifulSoup库学习
- python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)
- python爬虫(上)--请求——关于模拟浏览器方法
- 浅谈python爬虫使用Selenium模拟浏览器行为