您的位置:首页 > 编程语言 > Python开发

python笔记——爬虫1

2015-10-31 21:46 267 查看
特此声明:

以下内容来源于博主:http://blog.csdn.net/pleasecallmewhy

http://cuiqingcai.com/
[b]根据需要整理到自己的笔记中,用于学习。[/b]

网络爬虫(Web crawler):也叫网络蜘蛛(Web spider),网络爬虫的基本操作就是抓取网页。

浏览网页:在火狐浏览器中打开百度www.baidu.com ,就是将浏览器作为一个’客户端‘,

向服务器发送一次请求, 把服务器的文件’抓取‘到本地,再进行解释和展现.

HTML:是一种标记语言,用标签标记内容并加以解析和区分。

浏览器功能:将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

URL(Uniform / Universal Resource Locator):称为统一资源定位符(也叫网址)

URL格式:

协议

服务器(域名或IP地址),有时也包括端口号(以数字表示,可省略)

路径(即主机资源的具体地址)

查询(以?为起点)

第一部分协议和第二部分服务器用' :// '符合隔开,第二部分服务器和第三部分路径用' / '隔开

例如:http://zh.wikipedia.org:80/w/index.php

http:是协议

zh.wikipedia.org,是服务器

80,是服务器上的网络端口号

/w/index.php,是路径

爬虫最主要的处理对象就是URL
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: