您的位置：首页 > 理论基础 > 计算机网络

Python之网络爬虫一

2014-11-23 20:24 134 查看

Python之网络爬虫（一）

这几个月一直捣鼓metasploit这玩意，终于把里面的东西熟悉的差不多了（注：原先里面的代码都是是Perl写的，后来又用ruby重写），回过头来看看自己有些啥语言的基本功，想想自己除了在ACM混过几年，对C/C++比较熟悉以外，对其他语言只是停留在一个了解的程度，所以想学习一门脚本语言，后来做了一些比较和了解后，选择了Python这门语言作为自己以后想努力学好的语言。
经过一周对Python语言的基础学习，现在开始用Python写一些实际的东西，下面就进入Python爬虫学习之路。
首先，我们要明确，什么是网络爬虫？
网络爬虫：也叫网络蜘蛛，即Web Spider,形象生动的一个词，如果把互联网比喻成为一个蜘蛛网，那么爬虫就是在蜘蛛网上爬来爬去的蜘蛛。当我们想要去访问某个网页的时候，这时网络蜘蛛会通过我们要访问的网页链接地址来寻找网页。
从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
那么从这样的角度来看，网络爬虫就是一个爬行程序，一个抓取网页的程序。
因此，网络爬虫的主要任务就是抓取网页。真的是这么简单嘛？？没错，就是这么简单，请往下看！！！！！！！！

这里我们先了解几个基本概念：

1、什么是URI？
URI，即通用资源标识符,Universal Resource Identifier的缩写，即Web上每种可用的资源，如：图像、视频、HTML文档等等。
主要由三部分组成：
1）、访问资源的一个命名机制；2）、存放资源的主机名；3）、资源自己的一个名称，由路径表示！ http://fanyi.baidu.com/translate#auto/zh/ 1）、访问资源的命名机制为通过http协议进行访问；2）、存放资源的主机名为fanyi.baidu.com
3）、translate#auto/zh/通过这个路劲来访问

2、什么是URL？
URL，即统一资源定位符， Uniform Resource Locator的缩写，就是你在浏览器里上面的那个长框框里面输入的链接，例如“http://www.csdn.net/”这样的字符串，URL是URI的一个子串。
和URI一样，也是由三部分组成：
以http://fanyi.baidu.com/translate#auto/zh/为例
1）、协议如http(超文本传输协议)， 2）、存放资源的主机的IP地址，如fanyi.baidu.com 3）、主机资源的具体地址
两者之间的主要区别：URI表示请求服务器的路径，定义这么一个资源，而URL还要求如何去访问这么一个资源
爬虫的主要操作对象就是URL。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航