搜索引擎----网络爬虫
2013-04-28 23:18
162 查看
网络爬虫以叫网络蜘蛛(Spider或Crawler),网络机器人,是一个程序,会自动抓取互联网上的网页。这种技术一般可能会检查你的站点上所有的链接。当然,更为高级的技术是把网页中的相关数据分类保存下来,成为搜索引擎的数据源。
基本架构图:
![](http://img.blog.csdn.net/20130428231003284)
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。对于垂直搜索来说,聚焦爬虫,即有针对性地爬取特定主题网页的爬虫,更为适合。
从技相来说,实现抓取网页可能并不是一件很困难的事情,困难的事情是对网页的分析和整理,那是一件需要有轻量智能,需要大量数学计算的程序才能做的事情。
爬虫 (Crawler) 原理:
学过数据结构的读者都知道有向图这种数据结构。如下图所示,如果将网页看成是图中的某一个节点,而将网页中指向其他网页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个Internet上的网页建模成一个有向图。理论上,通过遍历算法遍历该图,可以访问到Internet上的几乎所有的网页。最简单的遍历就是广度优先以及深度优先。
![](http://img.blog.csdn.net/20130428232239833)
在目前为覆盖尽可能多的网页 ,一般使用广度优先搜索方法。
参考: 聚焦爬虫技术研究综述 与 互联网
基本架构图:
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。对于垂直搜索来说,聚焦爬虫,即有针对性地爬取特定主题网页的爬虫,更为适合。
从技相来说,实现抓取网页可能并不是一件很困难的事情,困难的事情是对网页的分析和整理,那是一件需要有轻量智能,需要大量数学计算的程序才能做的事情。
爬虫 (Crawler) 原理:
学过数据结构的读者都知道有向图这种数据结构。如下图所示,如果将网页看成是图中的某一个节点,而将网页中指向其他网页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个Internet上的网页建模成一个有向图。理论上,通过遍历算法遍历该图,可以访问到Internet上的几乎所有的网页。最简单的遍历就是广度优先以及深度优先。
在目前为覆盖尽可能多的网页 ,一般使用广度优先搜索方法。
参考: 聚焦爬虫技术研究综述 与 互联网
相关文章推荐
- 搜索引擎中网络爬虫的设计分析
- 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
- 【搜索引擎基础知识2】网络爬虫的介绍 2014-05-16 14:10 395人阅读 评论(0) 收藏
- 蜘蛛爬虫网络高像素图片抓取工具[搜索引擎]
- 【搜索引擎基础知识2】网络爬虫
- dySE:一个 Java 搜索引擎的实现,第 1 部分: 网络爬虫
- 搜索引擎-网络爬虫
- 搜索引擎与网络爬虫简述
- 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
- 【搜索引擎基础知识2】网络爬虫的介绍
- 网络搜索引擎-爬虫,相关文章
- 网络搜索引擎---网络爬虫之原理分析和探讨
- 蜘蛛爬虫网络高像素图片抓取工具[搜索引擎]
- 【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
- 搜索引擎与SEO的纽带——你应该知道的事:网络爬虫
- 搜索引擎中网络爬虫的设计分析
- 【搜索引擎基础知识2】网络爬虫的介绍
- 搜索引擎中网络爬虫的设计分析
- 小型搜索引擎之简单网络爬虫实现
- dySE:一个 Java 搜索引擎的实现,第 1 部分 网络爬虫