计算机导论第三课笔记之网络爬虫
2017-07-03 08:54
190 查看
1、网络爬虫定义(来自百度百科定义)
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
2、网络爬虫步骤
首先、获取种子网页链接,并通过种子网页获取所有与种子网页相关的链接。
其次、定义两个list对象,一个用于保存即将要被抓取的网页链接(初始值为种子网页链接),一个用于已被抓取的网页链接(初始值为空链表)。
最后、通过循环完成获取所有链接。(注意点:网页与网页链接之间会有互返的情况,抓取链接时容易出现死循环,需要注意)。
3、伪代码
start with tocrawl =[seed]
crawled = []
while there are more pages tocrawl:
pick a page from tocrawl
add that page to crawled
add all the link targets on this page to tocrawl
return crawled
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
2、网络爬虫步骤
首先、获取种子网页链接,并通过种子网页获取所有与种子网页相关的链接。
其次、定义两个list对象,一个用于保存即将要被抓取的网页链接(初始值为种子网页链接),一个用于已被抓取的网页链接(初始值为空链表)。
最后、通过循环完成获取所有链接。(注意点:网页与网页链接之间会有互返的情况,抓取链接时容易出现死循环,需要注意)。
3、伪代码
start with tocrawl =[seed]
crawled = []
while there are more pages tocrawl:
pick a page from tocrawl
add that page to crawled
add all the link targets on this page to tocrawl
return crawled
相关文章推荐
- [计算机网络笔记]第三部分——传输层之UDP
- [计算机网络笔记]第三部分——传输层之TCP 可靠传输实现
- Java编写网络爬虫笔记(第三部分:Jsoup的强大)
- [计算机网络笔记]第三部分——传输层之TCP 报文结构
- [计算机网络笔记]第三部分——传输层之TCP 拥塞控制
- [计算机网络笔记]第三部分——传输层之TCP 连接建立与拆除的过程
- 2011年计算机软考网络管理员复习笔记第二章
- 计算机网络学习笔记—第二章 物理层
- 计算机网络课程(笔记)
- 全国计算机等级考试网络技术(三级教程)学习笔记2
- 计算机网络基础学习笔记(1)
- 计算机网络学习笔记—第一章概述
- 计算机与网络技术 (笔记)
- 计算机网络总结笔记(上)
- 计算机网络总结笔记 (下)
- 计算机网络学习笔记—第三章 数据链路层
- 全国计算机等级考试网络技术(三级教程)学习笔记
- 计算机学习笔记--网络知识
- 计算机网络三级考试笔记(自己整理)