用Python写网络爬虫——学习笔记(1)
2017-07-21 11:53
155 查看
【网站背景调研】
网站自身的robots.txt/Sitemap Google/WHOIS
1.检查robots.txt
爬虫限制、与网站结构相关的显示如何查看robots.txt?在网站后打/robots.txt即可
2.检查Sitemap
估算网站大小
大小衡量?目标网站的URL的个数1)检查Google爬虫的结果
○1Google很可能已经爬取过我们感兴趣的网站,可以通过Google所示的site关键词过滤域名结果,从而获得该信息。如site:example.webscraping.com
***在域名后添加URL路径,缩小查询范围,可以对结果过滤,如:site:example.webscraping.com/view
○2Google高级搜索www.google.com/advanced_search
识别网站所用技术
构建网站所使用的技术类型对如何爬取有所影响**有用的工具:builtwith模块
安装方法:pip install bulitwith
调用:
import builtwith builtwith.parse('网址')
查看返回结果
JavaScript——很有可能嵌入在HTML中,静态,易抓取
AngularJS——动态网页
ASP.NET——会话管理、表单
寻找网站的所有者
**使用WHOIS协议查询域名的注册者。Python有个针对WHOIS协议的封装库,pip install python-whois
import whois print whois.whois(‘网址’)
相关文章推荐
- 利用python实现网络爬虫
- Python3 大型网络爬虫实战 004 — scrapy 大型静态商城网站爬虫项目编写及数据写入数据库实战 — 实战:爬取淘宝
- python 网络爬虫 翻译
- python网络爬虫之LXML与HTMLParser
- python网络爬虫之requests库
- python Cmd实例之网络爬虫应用
- Python网络爬虫1 ---- windows下搭建爬虫框架scrapy
- python爬虫爬取网络图片
- python-网络爬虫初学三:网络异常的捕获
- python 网络爬虫代码
- python网络爬虫爬取图片代码
- 用Python实现网络爬虫
- 网络爬虫之Python
- Python 网络爬虫 初试
- python网络爬虫系列教程——python网络数据爬虫误区,让你的爬虫更像人类
- python-网络爬虫初学二:headers的设置和一些高级特性
- [Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
- Python 网络爬虫 004 (编程) 如何编写一个网络爬虫,来下载(或叫:爬取)一个站点里的所有网页
- Python网络爬虫封锁限制的几种方法
- Python编写网络爬虫--牛刀小试