您的位置：首页 > 运维架构 > 网站架构

scraping_深入了解一个网站的方法

2017-05-17 10:16 274 查看

检查robots.txt（了解抓取该网站时存在哪些限制）

检查sitemap（一般在robots.txt中能找到，这里提供了该网站的所有网页的链接）

估算网站大小（一个简便方法是检查Google爬虫的结果 -> site:www.baidu.com）

识别网站所用技术（python中的builtwith方法 -> builtwith.parse("www.baidu.com") ）

寻找网站所有者（whois查询：站长或者python中的 -> print(whois.whois("www.baidu.com")) ）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部