您的位置：首页 > 理论基础 > 计算机网络

用Python写网络爬虫——学习笔记（1）

2017-07-21 11:53 155 查看

【网站背景调研】

 网站自身的robots.txt/Sitemap Google/WHOIS

1.检查robots.txt

爬虫限制、与网站结构相关的显示

如何查看robots.txt？在网站后打/robots.txt即可

2.检查Sitemap

 估算网站大小

大小衡量？目标网站的URL的个数
1）检查Google爬虫的结果
○1Google很可能已经爬取过我们感兴趣的网站，可以通过Google所示的site关键词过滤域名结果，从而获得该信息。如site:example.webscraping.com
***在域名后添加URL路径，缩小查询范围，可以对结果过滤，如：site:example.webscraping.com/view

○2Google高级搜索www.google.com/advanced_search

 识别网站所用技术

构建网站所使用的技术类型对如何爬取有所影响
**有用的工具：builtwith模块
安装方法：pip install bulitwith
调用：

import builtwith
builtwith.parse('网址')

查看返回结果
JavaScript——很有可能嵌入在HTML中，静态，易抓取

AngularJS——动态网页

ASP.NET——会话管理、表单

 寻找网站的所有者

**使用WHOIS协议查询域名的注册者。

Python有个针对WHOIS协议的封装库，pip install python-whois

import whois
print whois.whois(‘网址’)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Python 爬虫网络爬虫

相关文章推荐

新的分享

章节导航