您的位置:首页 > 其它

1.4 URL管理器

2017-05-02 15:47 148 查看

URL管理器的作用

URL管理器的作用:管理待抓取URL集合和已抓取URL集合。防止重复循环抓取死循环。



URL管理器的实现方式



URL管理器的实现方式有三种:

适合个人的:内存

为啥用set()呢?

因为:python的set可以自动去除重复的元素。

小型企业或个人:关系数据库(永久存储或内存不够用)

用一个字段表示URL

用另一个字段判断是否被爬取过。

大型互联网公司:缓存数据库(高性能)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: