Python爬虫写在前面
2018-02-08 17:11
295 查看
不知道大家有没有和我一样的想法,最开始学习Python的兴趣就是为了爬虫,爬一些好看的妹子图片...
恩,准备进入正题了!最近一段时间没有怎么更新公众号,主要就是在做爬虫教程的一些准备工作,看看爬虫需要用到那些技术,然后做个计划出来,确定一下学习课程中缝,这不今天就先列出一些玩爬虫需要的准备工作!
Python爬虫这门技术你可以做得很简单,你也可以玩得很深入.打比方用简单的爬虫方式爬取1000万条数据可能需要一周时间,但如果你的爬虫玩得比较厉害,你可以采用分布式爬虫技术1天就能完成了1000万条数据。虽然都是爬虫,但这就是菜鸟与大牛的区别!这就和太极拳似的,易学难精!
这里面的技术点挺多的!现在来简单聊聊爬虫需要涉及的知识点。
如果有些网站需要登录,才能获取更多的资料,你得去登录,你得把登录的账号密码进行提交
有些网站登录后需要保存cookie信息才能继续获取更多资料
beautiul Soup
爬虫要学的东西还是挺多的,想把爬虫玩得666,基本就是这些知识点吧!好了,上面的东西我也只是粗略整理,笔误在所难免,后面我们会一起来学习爬虫知识吧!而我也准备做这样一套完整的爬虫系列教程!
最后我们一起来一场愉快的爬虫之旅吧!
恩,准备进入正题了!最近一段时间没有怎么更新公众号,主要就是在做爬虫教程的一些准备工作,看看爬虫需要用到那些技术,然后做个计划出来,确定一下学习课程中缝,这不今天就先列出一些玩爬虫需要的准备工作!
Python爬虫这门技术你可以做得很简单,你也可以玩得很深入.打比方用简单的爬虫方式爬取1000万条数据可能需要一周时间,但如果你的爬虫玩得比较厉害,你可以采用分布式爬虫技术1天就能完成了1000万条数据。虽然都是爬虫,但这就是菜鸟与大牛的区别!这就和太极拳似的,易学难精!
这里面的技术点挺多的!现在来简单聊聊爬虫需要涉及的知识点。
网页知识
html,js,css,xpath这些知识,虽然简单,但一定需要了解。 你得知道这些网页是如何构成的,然后才能去分解他们.
HTTP知识
一般爬虫你需要模拟浏览器的操作,才能去获取网页的信息如果有些网站需要登录,才能获取更多的资料,你得去登录,你得把登录的账号密码进行提交
有些网站登录后需要保存cookie信息才能继续获取更多资料
正则表达式
有了正则表达式才能更好的分割网页信息,获取我们想要的数据,所以正则表达式也是需要了解的.一些重要的爬虫库
url,url2beautiul Soup
数据库
爬取到的数据我们得有个地方来保存,可以使用文件,也可以使用数据库,这里我会使用mysql,还有更适合爬虫的
MongoDB数据库,以及分布式要用到的redis 数据库
爬虫框架
PySpider和
Scrapy这两个爬虫框架是非常NB的,简单的爬虫可以使用
urllib与
urllib2以及正则表达式就能完成,但高级的爬虫还得用这两个框架。 这两个框架需要另行安装。后面一起学习.
反爬虫
有时候你的网站数据想禁止别人爬取,可以做一些反爬虫处理操作。 打比方百度上就无法去查找淘宝上的数据,这样就避开了搜索引擎的竞争,淘宝就可以搞自己的一套竞价排名分布式爬虫
使用多个redis实例来缓存各台主机上爬取的数据。
爬虫要学的东西还是挺多的,想把爬虫玩得666,基本就是这些知识点吧!好了,上面的东西我也只是粗略整理,笔误在所难免,后面我们会一起来学习爬虫知识吧!而我也准备做这样一套完整的爬虫系列教程!
最后我们一起来一场愉快的爬虫之旅吧!
相关文章推荐
- 【爬了个爬——学习Python网络爬虫】0.写在前面的话
- Python爬虫入门(一)写在前面
- Python爬虫小白入门(一)写在前面
- 【我们一起自学Python】-写在前面
- [Python入门及进阶笔记00]-写在前面(目录/书籍/学习路线/其他)
- 【Python百知百问】0.写在前面的话
- [Python入门及进阶笔记00]-写在前面(目录/书籍/学习路线/其他)
- 【python】系列简记--00:写在前面
- Python实现设计模式之写在前面
- 【Python 3这件小事】0.写在前面的话
- 翻译Data Structures and Algorithms with Object-Oriented Design Patterns in Python,写在前面的话
- 关于IT/Python学习:写在前面
- [Python入门及进阶笔记00]-写在前面(目录/书籍/学习路线/其他)
- python一个关于贴吧的小爬虫(三)
- Python3 -美女图片 爬虫 (二)
- [Python] - 爬虫之Urllib库的基本使用
- python 培训之爬虫
- python爬虫抓取全国pm2.5的空气质量(BeautifulSoup3)
- python爬虫由浅入深15---利用Redis+Flask来维护代理池和Cookie池
- Python爬虫之爬取内涵吧段子(urllib.request)