python笔记——爬虫1
2015-10-31 21:46
267 查看
特此声明:
以下内容来源于博主:http://blog.csdn.net/pleasecallmewhy
http://cuiqingcai.com/
[b]根据需要整理到自己的笔记中,用于学习。[/b]
网络爬虫(Web crawler):也叫网络蜘蛛(Web spider),网络爬虫的基本操作就是抓取网页。
浏览网页:在火狐浏览器中打开百度www.baidu.com ,就是将浏览器作为一个’客户端‘,
向服务器发送一次请求, 把服务器的文件’抓取‘到本地,再进行解释和展现.
HTML:是一种标记语言,用标签标记内容并加以解析和区分。
浏览器功能:将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。
URL(Uniform / Universal Resource Locator):称为统一资源定位符(也叫网址)
URL格式:
协议
服务器(域名或IP地址),有时也包括端口号(以数字表示,可省略)
路径(即主机资源的具体地址)
查询(以?为起点)
第一部分协议和第二部分服务器用' :// '符合隔开,第二部分服务器和第三部分路径用' / '隔开
例如:http://zh.wikipedia.org:80/w/index.php
http:是协议
zh.wikipedia.org,是服务器
80,是服务器上的网络端口号
/w/index.php,是路径
爬虫最主要的处理对象就是URL
以下内容来源于博主:http://blog.csdn.net/pleasecallmewhy
http://cuiqingcai.com/
[b]根据需要整理到自己的笔记中,用于学习。[/b]
网络爬虫(Web crawler):也叫网络蜘蛛(Web spider),网络爬虫的基本操作就是抓取网页。
浏览网页:在火狐浏览器中打开百度www.baidu.com ,就是将浏览器作为一个’客户端‘,
向服务器发送一次请求, 把服务器的文件’抓取‘到本地,再进行解释和展现.
HTML:是一种标记语言,用标签标记内容并加以解析和区分。
浏览器功能:将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。
URL(Uniform / Universal Resource Locator):称为统一资源定位符(也叫网址)
URL格式:
协议
服务器(域名或IP地址),有时也包括端口号(以数字表示,可省略)
路径(即主机资源的具体地址)
查询(以?为起点)
第一部分协议和第二部分服务器用' :// '符合隔开,第二部分服务器和第三部分路径用' / '隔开
例如:http://zh.wikipedia.org:80/w/index.php
http:是协议
zh.wikipedia.org,是服务器
80,是服务器上的网络端口号
/w/index.php,是路径
爬虫最主要的处理对象就是URL
相关文章推荐
- [LeetCode]题解(python):039-Combination Sum
- python基础-线程和进程
- [LeetCode]题解(python):038-Count and Say
- [LeetCode]题解(python):037-Sudoku Solver
- Python Excel解析
- 支持Python3的图表库
- Ubuntu 14.04 安装 Python3
- Python验证码识别处理实例
- [LeetCode]题解(python):036-Valid Sudoku
- 4.2 codecs--Codec注册管理和基类(2)
- Python JSON 解析
- LeetCode----Invert Binary Tree
- python笔记004—字符串应用
- Python的C扩展问题
- 半自动抓取知乎用户的微博地址(python)(2)
- Python信号标准库(signal包,部分os包)
- python switch +=*/计算器 和 导入自定义模块 简单操作
- python的一些问题以及处理思路
- Python 创建XML
- Python XML的解析与创建