《HTTP权威指南》学习笔记(9)第9章Web机器人(关键词:计算机网络/HTTP/Web机器人)
2017-11-21 13:21
423 查看
第9章 Web机器人
9.1 爬虫及爬行方式
9.1.1 从哪儿开始:根集
9.1.2 链接的提取以及相对链接的标准化
9.1.3 避免环路的出现
9.1.4 循环与复制
9.1.5 面包屑留下的痕迹
9.1.6 别名与机器人环路
9.1.7 规范化URL
9.1.8 文件系统连接环路
9.1.9 动态虚拟Web空间
9.1.10 避免循环和重复
9.2 机器人的HTTP
9.2.1 识别请求首部
9.2.2 虚拟主机
9.2.3 条件请求
9.2.4 对响应的处理
9.2.5 User-Agent导向
9.3 行为不当的机器人
9.4 拒绝机器人访问
9.4.1 拒绝机器人访问标准
9.4.2 Web站点和robots.txt文件
9.4.3 robots.txt文件的格式
9.4.4 其他有关robots.txt的过期
9.4.5 缓存和robots.txt的
9.4.6 拒绝机器人访问的Perl代码
9.4.7 HTML的robot-control元标签
9.5 机器人的规范
9.6 搜索引擎
9.6.1 大格局
9.6.2 现代搜索引擎结构
9.6.3 全文索引
9.6.4 发布查询请求
9.6.5 对结果进行排序,并提供查询结果
9.6.6 欺诈
9.7 更多信息
参考文献:1.《HTTP权威指南》。
相关文章推荐
- 《HTTP权威指南》学习笔记(5)第5章Web服务器(关键词:计算机网络/HTTP/Web服务器)
- 《HTTP权威指南》学习笔记(7)第7章缓存(关键词:计算机网络/HTTP/缓存)
- 《HTTP权威指南》学习笔记(0)前言、目录(关键词:计算机网络/HTTP)
- 《HTTP权威指南》学习笔记(8)第8章 集成点:网关、隧道及中继(关键词:计算机网络/HTTP/网关/隧道/中继)
- 《HTTP权威指南》学习笔记(10)第10章HTTP-NG(关键词:计算机网络/HTTP/HTTP-NG)
- 《HTTP权威指南》学习笔记(1)第1章HTTP概述(关键词:计算机网络/HTTP)
- 《HTTP权威指南》学习笔记(2)第2章URL与资源(关键词:计算机网络/HTTP/URL/资源)
- 《HTTP权威指南》学习笔记(3)第3章HTTP报文(关键词:计算机网络/HTTP/HTTP报文)
- 《HTTP权威指南》学习笔记(4)第4章连接管理(关键词:计算机网络/HTTP/连接管理)
- 《HTTP权威指南》学习笔记(6)第6章代理(关键词:计算机网络/HTTP/代理)
- 计算机网络(Web和HTTP)
- 《HTTP小书》读书笔记(3)请求之请求方法(关键词:计算机网络/HTTP/请求方法/GET/POST/OPTIONS/PUT/DELETE/CONNECT)
- 《HTTP小书》读书笔记(1)预备知识(关键词:计算机网络/HTTP/Node.js)
- 《图解HTTP》读书笔记(1)第1章了解Web及网络基础(关键词:HTTP/)
- 图解HTTP: 了解Web及网络基础
- 计算机网络协议赏析-HTTP
- Webview 非http或者https的网络请求拦截
- 计算机网络相关:应用层协议(二):HTTP
- 《HTTP权威指南》学习笔记——HTTP概述
- C# 发送HttpWebRequest获得网络图片的大小和尺寸