网络爬虫的规则
2017-09-04 22:06
537 查看
网络爬虫引发的问题
网络爬虫的尺寸
网络爬虫的“性能骚扰”
Web服务器默认接收人类访问受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销
网络爬虫的法律风险
服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险
网络爬虫的隐私泄露
网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私
网络爬虫引发的问题
性能骚扰法律风险
隐私泄露
网络爬虫的限制
• 来源审查:判断User‐Agent进行限制检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
• 发布公告:Robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守
Robots协议
Robots协议
Robots Exclusion Standard,网络爬虫排除标准作用:
网站告知网络爬虫哪些页面可以抓取,哪些不行
形式:
在网站根目录下的robots.txt文件
案例:京东的 Robots协议
https://www.jd.com/robots.txtUser‐agent: * Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User‐agent: EtaoSpider Disallow: / User‐agent: HuihuiSpider Disallow: / User‐agent: GwdangSpider Disallow: / User‐agent: WochachaSpider Disallow: /
# 注释,*代表所有,/代表根目录 User‐agent: * Disallow: /Robots协议基本语法
案例:真实的Robots协议
http://www.baidu.com/robots.txthttp://news.sina.com.cn/robots.txt http://www.qq.com/robots.txt http://news.qq.com/robots.txt http://www.moe.edu.cn/robots.txt (无robots协议)
Robots协议的遵守方式
实际操作中,该如何遵守Robots协议?Robots协议的使用
网络爬虫:自动或人工识别robots.txt,再进行内容爬取
约束性:
Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险
对Robots协议的理解
相关文章推荐
- Python网络爬虫与信息提取 网络爬虫之规则
- Linux企业级项目实践之网络爬虫(24)——定制规则扩展为垂直爬虫
- Linux企业级项目实践之网络爬虫(24)——定制规则扩展为垂直爬虫
- 测验与作业【第一周】网络爬虫之规则
- Python网络爬虫与信息提取(一):网络爬虫之规则
- 1、网络爬虫之规则之requests库入门
- 网络爬虫规则(一)
- Linux企业级项目实践之网络爬虫(20)——扩展成为规则插件模式
- Linux企业级项目实践之网络爬虫(20)——扩展成为规则插件模式
- 第一周测验:网络爬虫之规则
- RSS网络爬虫的时间规则
- RSS网络爬虫的时间规则
- python3——urllib模块的网络爬虫
- 开源通用爬虫框架YayCrawler-页面的抽取规则定义
- Java网络爬虫的实现
- 使用c#制作网络爬虫,检查站点可访问性
- struts2实现伪静态化便于网络爬虫搜索
- 网络资源搜索爬虫(python 3.4.1实现)
- 网络爬虫基本原理以及抓取策略了解
- 简易网络爬虫程序的开发(2)(c#版)