您的位置：首页 > 理论基础 > 计算机网络

计算机导论第三课笔记之网络爬虫

2017-07-03 08:54 190 查看

1、网络爬虫定义（来自百度百科定义）

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

2、网络爬虫步骤

首先、获取种子网页链接，并通过种子网页获取所有与种子网页相关的链接。

其次、定义两个list对象，一个用于保存即将要被抓取的网页链接（初始值为种子网页链接），一个用于已被抓取的网页链接（初始值为空链表）。

最后、通过循环完成获取所有链接。（注意点：网页与网页链接之间会有互返的情况，抓取链接时容易出现死循环，需要注意）。

3、伪代码

start with tocrawl =[seed]

crawled = []

while there are more pages tocrawl:

pick a page from tocrawl

add that page to crawled

add all the link targets on this page to tocrawl

return crawled

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航