您的位置:首页 > 运维架构 > 网站架构

scraping_深入了解一个网站的方法

2017-05-17 10:16 274 查看

检查robots.txt(了解抓取该网站时存在哪些限制)

检查sitemap(一般在robots.txt中能找到,这里提供了该网站的所有网页的链接)

估算网站大小(一个简便方法是检查Google爬虫的结果 -> site:www.baidu.com)

识别网站所用技术(python中的builtwith方法 -> builtwith.parse("www.baidu.com") )

寻找网站所有者(whois查询:站长或者python中的 -> print(whois.whois("www.baidu.com"))  )

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: