Python之网络爬虫一
2014-11-23 20:24
134 查看
Python之网络爬虫(一)
这几个月一直捣鼓metasploit这玩意,终于把里面的东西熟悉的差不多了(注:原先里面的代码都是是Perl写的, 后来又用ruby重写),回过头来看看自己有些啥语言的基本功,想想自己除了在ACM混过几年,对C/C++比较熟悉以外,对其他语言只是停留在一个了解的程度,所以想学习一门脚本语言,后来做了一些比较和了解后,选择了Python这门语言作为自己以后想努力学好的语言。经过一周对Python语言的基础学习,现在开始用Python写一些实际的东西,下面就进入Python爬虫学习之路。
首先,我们要明确,什么是网络爬虫?
网络爬虫:也叫网络蜘蛛,即Web Spider,形象生动的一个词,如果把互联网比喻成为一个蜘蛛网,那么爬虫就是在蜘蛛网上爬来爬去的蜘蛛。当我们想要去访问某个网页的时候,这时网络蜘蛛会通过我们要访问的网页链接地址来寻找网页。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
那么从这样的角度来看,网络爬虫就是一个爬行程序,一个抓取网页的程序。
因此,网络爬虫的主要任务就是抓取网页。真的是这么简单嘛??没错,就是这么简单,请往下看!!!!!!!!
这里我们先了解几个基本概念:
1、什么是URI?
URI,即通用资源标识符,Universal Resource Identifier的缩写,即Web上每种可用的资源,如:图像、视频、HTML文档等等。
主要由三部分组成:
1)、访问资源的一个命名机制;2)、存放资源的主机名;3)、资源自己的一个名称,由路径表示! http://fanyi.baidu.com/translate#auto/zh/ 1)、访问资源的命名机制为通过http协议进行访问;2)、存放资源的主机名为fanyi.baidu.com
3)、translate#auto/zh/通过这个路劲来访问
2、什么是URL?
URL,即统一资源定位符, Uniform Resource Locator的缩写, 就是你在浏览器里上面的那个长框框里面输入的 链接,例如“http://www.csdn.net/”这样的字符串,URL是URI的一个子串。
和URI一样,也是由三部分组成:
以http://fanyi.baidu.com/translate#auto/zh/为例
1)、协议 如http(超文本传输协议), 2)、存放资源的主机的IP地址,如fanyi.baidu.com 3)、主机资源的具体地址
两者之间的主要区别:URI表示请求服务器的路径,定义这么一个资源, 而URL还要求如何去访问这么一个资源
爬虫的主要操作对象就是URL。
相关文章推荐
- Python学习笔记之网络爬虫
- Python实现网络爬虫
- python写网络爬虫 推荐
- [Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- python网络爬虫
- 写网络爬虫学python(一)
- 【爬了个爬——学习Python网络爬虫】1.抓取页面
- 【爬了个爬——学习Python网络爬虫】0.写在前面的话
- Python与简单网络爬虫的编写
- python 简单的网络爬虫 + html 正文抽取
- python实现网络爬虫
- Python实现网络爬虫
- 预习任务:python 网络爬虫
- 用python实现网络爬虫
- Python实现网络爬虫
- 开源python网络爬虫框架Scrapy
- python 网络爬虫
- 第一次写python--网络爬虫
- python实现网络爬虫