网络爬虫
2015-08-20 10:21
281 查看
网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。
一、网络爬虫的基本结构及工作流程
一个通用的网络爬虫的框架如图所示:
网络爬虫的基本工作流程如下:
1.首先选取一部分精心挑选的种子URL;
2.将这些URL放入待抓取URL队列;
3.从待抓取URL队列中取出待抓取的URL,读取URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
一、网络爬虫的基本结构及工作流程
一个通用的网络爬虫的框架如图所示:
网络爬虫的基本工作流程如下:
1.首先选取一部分精心挑选的种子URL;
2.将这些URL放入待抓取URL队列;
3.从待抓取URL队列中取出待抓取的URL,读取URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
相关文章推荐
- 黑马程序员——网络编程
- Apache HTTP Server 2.4 绿色版 安装成系统服务
- 网络流(dinic算法)
- TCP/IP协议三次握手与四次握手流程解析
- 计算机网络题目(不定期更新)
- 修复TCP/IP网络连接
- HTTP长连接与短连接
- HttpClient的get和post
- TCP三次握手和四次挥手协议
- tcpdump笔记
- 更改linux文件夹的默认颜色http://www.cnblogs.com/pmars/p/3730644.html
- android4.0 HttpClient 以后不能在主线程发起网络请求
- 网络编程中的函数汇总篇
- WCF下载***$metadata”时出错。 无法连接到远程服务器由于目标计算机积极拒绝,无法连接。元数据包含无法解析的引用http://localhost 没有终结点在侦听可以接受消这通常是由于不正
- node.js基础:HTTP服务器
- win10系统出现多个网络怎么办?win10系统多余网络的解决方法
- https://software.intel.com/zh-cn/blogs/2014/02/20/svn/
- Deep Learning论文笔记之(五)CNN卷积神经网络代码理解
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现
- Deep Learning论文笔记之(三)单层非监督学习网络分析