您的位置:首页 > 理论基础 > 计算机网络

计算机导论第三课笔记之网络爬虫

2017-07-03 08:54 190 查看
1、网络爬虫定义(来自百度百科定义)

      网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

2、网络爬虫步骤

      首先、获取种子网页链接,并通过种子网页获取所有与种子网页相关的链接。

      其次、定义两个list对象,一个用于保存即将要被抓取的网页链接(初始值为种子网页链接),一个用于已被抓取的网页链接(初始值为空链表)。

      最后、通过循环完成获取所有链接。(注意点:网页与网页链接之间会有互返的情况,抓取链接时容易出现死循环,需要注意)。

3、伪代码

      start  with  tocrawl =[seed]

      crawled = []

      while there are more pages tocrawl:

            pick a page from tocrawl

            add that page to crawled

            add all the link targets on this page to  tocrawl

      return crawled
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: