python基础学习第五课,大批量获取网页数据基础,requests模块尝试
2018-02-19 22:04
816 查看
2018-02-19 滑稽怪 趣说python(如果有帮助可以关注我的微信公众号 趣说python 会陆续公布django和爬虫专栏哦)
其实本来这里按常规思路呢,我们要给大家讲for循环的但是作为一个不按常理出牌的公众号,我准备先讲点有意思的东西
现在是一个大数据的年代,网上有很多数据都是有所价值的但是只有数据达到一定数量级,比如几十万,才会有所价值
但是别人的数据是不会免费提供给我们的,我们如何获得数据呢,那么我们可以利用python来大规模爬取它的网页,来获得数据,这就叫爬虫
这之间的获取网页,提取数据,存储,反爬虫措施的应对,数据量的提升如何保证效率,如何大规模爬取,构造了一个特殊的岗位,爬虫工程师
以后我会推出一个专题来讲这方面,我们可以爬电影,爬淘宝,爬斗鱼弹幕,爬亚马逊,爬豆瓣,这些都会在以后讲到
这里我们来介绍一个起点吧,requests模块-----------------------------------------
我们点击这个哦
进入这里哦点击右边那个绿色的+号
查询到requests,点击左下角的install 等待安装完成即可
这样既可哦 requests是一个模块,一个很大的包裹,里面会有很多很多的方法,使用模块里面的方法requests.method_name()
这样就可以看到我们获得的页面了啦
但是如果你执行下面的语句
就会拿到这种数据啦,这是因为知乎屏蔽掉了我们的爬虫哦这个我们后期爬虫教程会讲啦,让我们回归基础吧,只有基础达到了,才能做有意思的事情
其实本来这里按常规思路呢,我们要给大家讲for循环的但是作为一个不按常理出牌的公众号,我准备先讲点有意思的东西
一 扩展
这个已经超过了我们当前的进度了啦,我为什么要提前讲这个模块呢?现在是一个大数据的年代,网上有很多数据都是有所价值的但是只有数据达到一定数量级,比如几十万,才会有所价值
但是别人的数据是不会免费提供给我们的,我们如何获得数据呢,那么我们可以利用python来大规模爬取它的网页,来获得数据,这就叫爬虫
这之间的获取网页,提取数据,存储,反爬虫措施的应对,数据量的提升如何保证效率,如何大规模爬取,构造了一个特殊的岗位,爬虫工程师
以后我会推出一个专题来讲这方面,我们可以爬电影,爬淘宝,爬斗鱼弹幕,爬亚马逊,爬豆瓣,这些都会在以后讲到
这里我们来介绍一个起点吧,requests模块-----------------------------------------
一 下载包环节
我们平常都是用浏览器访问网页的,那我们能不能通过python来访问网页呢?有的,叫做requests模块,什么叫做模块呢?模块就是别人写好的代码我们下载下来,使用,让我们用简单的方法实现复杂的功能咯我们点击这个哦
进入这里哦点击右边那个绿色的+号
查询到requests,点击左下角的install 等待安装完成即可
二 导入模块
这样既可哦 requests是一个模块,一个很大的包裹,里面会有很多很多的方法,使用模块里面的方法requests.method_name()
这样就可以看到我们获得的页面了啦
但是如果你执行下面的语句
就会拿到这种数据啦,这是因为知乎屏蔽掉了我们的爬虫哦这个我们后期爬虫教程会讲啦,让我们回归基础吧,只有基础达到了,才能做有意思的事情
相关文章推荐
- python数据持久存储:pickle模块的基本使用 分类: python python基础学习 python 小练习 2013-06-17 14:41 209人阅读 评论(0) 收藏
- 爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍
- Python基础学习----Requests获取url请求时间:
- Python学习笔记(一)--Python基础知识:变量、数据类型、模块与字符串
- Python模块学习 ---- struct 数据格式转换
- Python的学习(十九)--获取网页信息(一)
- 网站学习备忘001——运用POST方法获取表单中的数据,并显示在同一网页中
- Python学习入门基础教程(learning Python)--5.7 Python文件数据记录存储与处理
- python基础学习-1(数据类型)
- python中计时工具timeit模块的基本用法 分类: python python基础学习 2013-08-08 10:05 2072人阅读 评论(0) 收藏
- python string模块 分类: python基础学习 python Module 2013-08-16 17:50 294人阅读 评论(0) 收藏
- bisect模块 分类: python基础学习 python 2013-06-28 17:58 288人阅读 评论(0) 收藏
- Python学习入门基础教程(learning Python)--1.3 Python数据输入 .
- 微软企业库5.0学习笔记(三十四)数据访问模块 各种获取数据的方式
- 去除字符串重复数据 分类: python基础学习 2013-08-08 17:43 171人阅读 评论(0) 收藏
- Python学习笔记(十三):模块基础
- Python模块学习 ---- struct 数据格式转换
- 微软企业库5.0学习笔记(三十四)数据访问模块 各种获取数据的方式
- assert 用法及获取IP 分类: python基础学习 2013-07-24 16:54 344人阅读 评论(0) 收藏
- Python模块学习 ---- struct 数据格式转换