您的位置：首页 > 理论基础 > 计算机网络

《HTTP权威指南》学习笔记（9）第9章Web机器人（关键词：计算机网络/HTTP/Web机器人）

2017-11-21 13:21 423 查看

第9章 Web机器人

9.1 爬虫及爬行方式

9.1.1 从哪儿开始：根集

9.1.2 链接的提取以及相对链接的标准化

9.1.3 避免环路的出现

9.1.4 循环与复制

9.1.5 面包屑留下的痕迹

9.1.6 别名与机器人环路

9.1.7 规范化URL

9.1.8 文件系统连接环路

9.1.9 动态虚拟Web空间

9.1.10 避免循环和重复

9.2 机器人的HTTP

9.2.1 识别请求首部

9.2.2 虚拟主机

9.2.3 条件请求

9.2.4 对响应的处理

9.2.5 User-Agent导向

9.3 行为不当的机器人

9.4 拒绝机器人访问

9.4.1 拒绝机器人访问标准

9.4.2 Web站点和robots.txt文件

9.4.3 robots.txt文件的格式

9.4.4 其他有关robots.txt的过期

9.4.5 缓存和robots.txt的

9.4.6 拒绝机器人访问的Perl代码

9.4.7 HTML的robot-control元标签

9.5 机器人的规范

9.6 搜索引擎

9.6.1 大格局

9.6.2 现代搜索引擎结构

9.6.3 全文索引

9.6.4 发布查询请求

9.6.5 对结果进行排序，并提供查询结果

9.6.6 欺诈

9.7 更多信息

参考文献：

1.《HTTP权威指南》。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 计算机网络 HTTP Web机器人

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部