1.4 URL管理器
2017-05-02 15:47
148 查看
URL管理器的作用
URL管理器的作用:管理待抓取URL集合和已抓取URL集合。防止重复循环抓取死循环。URL管理器的实现方式
URL管理器的实现方式有三种:
适合个人的:内存
为啥用set()呢?
因为:python的set可以自动去除重复的元素。
小型企业或个人:关系数据库(永久存储或内存不够用)
用一个字段表示URL
用另一个字段判断是否被爬取过。
大型互联网公司:缓存数据库(高性能)
相关文章推荐
- 关于JAVA1.2与1.4考试的区别!
- J2EE 1.4 application Server for Linux 安装与配置
- JDK1.4安装与环境配置完全图解(windows)
- 【总结】Linux RedHat AS3上安装JDK1.4
- 一些安全概念及在jdk1.4中的实现
- 30道1.4模拟经典题
- Retrotranslator--将JDK5.0项目完全转换为JDK1.4 字节码的恩物
- 开发环境jdk1.5,部署环境jdk1.4 BigDecimal出现问题
- JSCP1.4 考点总结一、二、
- 中文Access2000速成教程--1.4 使用“表向导”建立新表
- J2EE 1.4 基础 指引
- 1.4 微软的程序和项目管理
- [转]prototype.js 1.4版开发者手册
- 1.4 [Enterprise Library] 配置 appSettings
- jdk1.4如何使用RSA算法
- 升级xserver到1.4,关于pkg_config
- Linux下让tomcat显示图片(jdk1.4, tomcat 4.0 或更高版本)
- XP下JDK1.4安装与环境配置完全图解
- [CoreJava2AdvancedFeatures][多线程]1.4线程属性
- prototype.js 1.4版开发者手册(强烈推荐)