您的位置:首页 > 理论基础 > 计算机网络

《HTTP权威指南》学习笔记(9)第9章Web机器人(关键词:计算机网络/HTTP/Web机器人)

2017-11-21 13:21 423 查看

第9章 Web机器人

9.1 爬虫及爬行方式

9.1.1 从哪儿开始:根集

9.1.2 链接的提取以及相对链接的标准化

9.1.3 避免环路的出现

9.1.4 循环与复制

9.1.5 面包屑留下的痕迹

9.1.6 别名与机器人环路

9.1.7 规范化URL

9.1.8 文件系统连接环路

9.1.9 动态虚拟Web空间

9.1.10 避免循环和重复

9.2 机器人的HTTP

9.2.1 识别请求首部

9.2.2 虚拟主机

9.2.3 条件请求

9.2.4 对响应的处理

9.2.5 User-Agent导向

9.3 行为不当的机器人

9.4 拒绝机器人访问

9.4.1 拒绝机器人访问标准

9.4.2 Web站点和robots.txt文件

9.4.3 robots.txt文件的格式

9.4.4 其他有关robots.txt的过期

9.4.5 缓存和robots.txt的

9.4.6 拒绝机器人访问的Perl代码

9.4.7 HTML的robot-control元标签

9.5 机器人的规范

9.6 搜索引擎

9.6.1 大格局

9.6.2 现代搜索引擎结构

9.6.3 全文索引

9.6.4 发布查询请求

9.6.5 对结果进行排序,并提供查询结果

9.6.6 欺诈

9.7 更多信息

参考文献:

1.《HTTP权威指南》。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐