您的位置:首页 > 理论基础 > 计算机网络

Python之网络爬虫一

2014-11-23 20:24 134 查看

Python之网络爬虫(一)

这几个月一直捣鼓metasploit这玩意,终于把里面的东西熟悉的差不多了(注:原先里面的代码都是是Perl写的, 后来又用ruby重写),回过头来看看自己有些啥语言的基本功,想想自己除了在ACM混过几年,对C/C++比较熟悉以外,对其他语言只是停留在一个了解的程度,所以想学习一门脚本语言,后来做了一些比较和了解后,选择了Python这门语言作为自己以后想努力学好的语言。
经过一周对Python语言的基础学习,现在开始用Python写一些实际的东西,下面就进入Python爬虫学习之路。
首先,我们要明确,什么是网络爬虫?
网络爬虫:也叫网络蜘蛛,即Web Spider,形象生动的一个词,如果把互联网比喻成为一个蜘蛛网,那么爬虫就是在蜘蛛网上爬来爬去的蜘蛛。当我们想要去访问某个网页的时候,这时网络蜘蛛会通过我们要访问的网页链接地址来寻找网页。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
那么从这样的角度来看,网络爬虫就是一个爬行程序,一个抓取网页的程序。
因此,网络爬虫的主要任务就是抓取网页。真的是这么简单嘛??没错,就是这么简单,请往下看!!!!!!!!

这里我们先了解几个基本概念:

1、什么是URI?
URI,即通用资源标识符,Universal Resource Identifier的缩写,即Web上每种可用的资源,如:图像、视频、HTML文档等等。
主要由三部分组成:
1)、访问资源的一个命名机制;2)、存放资源的主机名;3)、资源自己的一个名称,由路径表示! http://fanyi.baidu.com/translate#auto/zh/ 1)、访问资源的命名机制为通过http协议进行访问;2)、存放资源的主机名为fanyi.baidu.com
3)、translate#auto/zh/通过这个路劲来访问

2、什么是URL?
URL,即统一资源定位符, Uniform Resource Locator的缩写, 就是你在浏览器里上面的那个长框框里面输入的 链接,例如“http://www.csdn.net/”这样的字符串,URL是URI的一个子串。
和URI一样,也是由三部分组成:
以http://fanyi.baidu.com/translate#auto/zh/为例
1)、协议 如http(超文本传输协议), 2)、存放资源的主机的IP地址,如fanyi.baidu.com 3)、主机资源的具体地址
两者之间的主要区别:URI表示请求服务器的路径,定义这么一个资源, 而URL还要求如何去访问这么一个资源
爬虫的主要操作对象就是URL。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: