scraping_深入了解一个网站的方法
2017-05-17 10:16
274 查看
检查robots.txt(了解抓取该网站时存在哪些限制)
检查sitemap(一般在robots.txt中能找到,这里提供了该网站的所有网页的链接)
估算网站大小(一个简便方法是检查Google爬虫的结果 -> site:www.baidu.com)
识别网站所用技术(python中的builtwith方法 -> builtwith.parse("www.baidu.com") )
寻找网站所有者(whois查询:站长或者python中的 -> print(whois.whois("www.baidu.com")) )
相关文章推荐
- 深入了解 register_globals (附register_globals=off 网站打不开的解决方法)
- 深入了解 register_globals (附register_globals=off 网站打不开的解决方法)
- 当网站不允许上传asp cer cdx htr文件时的一个解决方法
- 一个成功的网站设计方法1
- 深入了解C语言(函数的参数传递和函数使用参数的方法)
- 如何制作一个 https 网站?IIS配置HTTPS服务的方法
- Asp.net 2.0 中将网站首页生成静态页的一个比较好的方法
- 教你深入了解2000//XP蓝屏,及解决方法。
- Asp.net 2.0 中将网站首页生成静态页的一个比较好的方法
- Asp.net 2.0 中将网站首页生成静态页的一个比较好的方法
- 将数字金额转换成大写人民币形式(网站收到的一个方法很不错)
- 深入了解C语言(函数的参数传递和函数使用参数的方法)
- Asp.net 2.0 中将网站首页生成静态页的一个比较好的方法
- 最近写的一个网站的聚合的实现方法,
- Asp.net 2.0 中将网站首页生成静态页的一个比较好的方法
- 一个成功的网站设计方法2
- Asp.net 2.0 中将网站首页生成静态页的一个比较好的方法
- 随机增加网站点击的一个不错的方法 原创
- 一个个人站长些的网站宣传方法
- 当网站不允许上传asp cer cdx htr文件时的一个解决方法! Author: Neeao From:http://www.neeao.info