您的位置：首页 > 运维架构 > 网站架构

黄聪：关于抓取网页，分析网页内容，模拟登陆网站的逻辑/流程和注意事项（转）

2015-02-02 08:46 766 查看

抓取网页的一般逻辑和过程

一般普通用户，用浏览器，打开某个URL地址，然后浏览器就可以显示出对应的页面的内容了。
这个过程，如果用程序代码来实现，就可以被称为（用程序实现）抓取网页（的内容，并进行后期处理，提取所需信息等）
对应的英文说法有，website crawl/scrape/data mining。
而用来抓取网页的工具，也常被叫做 spider，crawler等。
即，一般所谓的取网页内容，指的是通过程序（某种语言的程序代码，比如Python脚本语言，C#语言等）实现访问某个URL地址，然后获得其所返回的内容（HTML源码，Json格式的字符串等）。
而对于这个抓取网页的过程，是有一套自己的逻辑的。
想要用程序实现对应的网页内容的抓取，就是要先搞懂这套逻辑，然后再去用对应的不同的语言实现，即可。

抓取网页的一般逻辑

去访问一个URL地址,获得对应的网页的过程，其对应的内部机制是
准备好对应的Http请求（Http Request）+ 提交对应的Http Request
–>
获得返回的响应（Http Response） + 获得Http Response中的网页源码
下面介绍这两大步骤的具体操作流程：

准备此Http请求Request （访问URL之前的准备工作）

1.知道了要访问的URL地址是什么
request url
2.[可选]如果是GET方法，是否还有其他一些参数
此参数：

IE中算是称为request parameter
Chrome中称为query string

3.确定是GET还是POST方法
4.添加对应的头（Header）信息
即request header
5.[可选]如果是POST方法，则还需要填写对应的数据
此数据：

IE中称为request body
Chrome中称为Post Data

换句话说：
如果是GET，则是没有POST数据的。
提示：所以，你在IE9中通过F12抓取到的内容中，会看到，对于所有的GET请求，对应的“请求正文（request body）”都是空的。
6.其他一些可能需要准备的东西
（1）代理proxy
（2）设置最大超时timeout时间
（3）是否有cookie

提交HttpRequest，即可获得此http请求的响应Response（访问URL之后的要做的工作）

1.获得对应的响应response
2.从响应中获得对应的网页源码等信息
（1）获得返回的网页HTML源码（或json等）
（2）[可选]如果有需要，还要获得对应的cookie
（3）[可选]判断返回的其他一些相关信息，比如response code等

【网页抓取过程中的注意事项】
1.网页跳转Redirect
（1）直接跳转
（2）间接跳转
A。javascript脚本中有对应的代码实现网页跳转
B。本身所返回的HTML源码中包含refresh动作，所实现的网页跳转

抓取网页后，如何分析获得所需要的内容

一般来说，去访问一个URL地址，所返回的内容，多数都是网页的HTML源码，也有其他一些形式的内容的，比如json等。
我们所想要的则是，从返回的内容（HTML或json等）中，提取我们所需要的特定的信息，即对其进行一定的处理，获得所需信息。
就我所遇到的情况，有几种方法可以实现提取所需的信息：
1. 对于HTML源码：
（1）如果是Python中的话，可以通过调用第三方的Beautifulsoup库
然后再调用find等函数，来提取对应的信息。
这部分内容，相对很复杂，需要详细了解的，可以参考一下：
BlogsToWordPress
v3.0 – 将百度空间，网易163等博客搬家到WordPress
中的源码。
（2）直接使用正则表达式自己去提取相关内容
对于内容的分析和提取，很多时候，都是通过正则表达式来实现的。
关于正则表达式的相关知识和总结，去看这里：
【总结】关于正则表达式 v2012-02-20

正则表达式是一种规范/规则，具体用何种语言实现，取决于你自己。
我遇到的有Python和C#两种语言：
A。Python：使用re模块，常用的函数是find，，findall，search等。
B：C#：使用Regex类，用对应的pattern和match函数来匹配。
关于C#中的Regex，更多内容请参考：
【总结】C#中的Regex的使用心得和注意事项

2.对于Json
可以先去看专门的关于JSON的介绍：
【整理】什么是JSON+如何处理JSON字符串
然后再看下面的如何处理Json。
（1）使用库（函数）来处理
A。Python
Python中，有对应的json库，常用的是json.load，即可将json格式的字符串，转换为对应的字典Dictionary类型变量，很是好用。
（2）还是使用正则表达式来处理
A。Python
Python中的re模块，同上。
B。C#
C#中貌似没有自带json的库，倒是有很多第三方的json库，但是我当时遇到解析json字符串的时候，觉得这些库，使用起来还是很麻烦，所以还是直接使用regex类来处理了。

模拟登陆网站的一般逻辑和过程

而对于用C#实现网页内容抓取和模拟登陆网页方面，一些心得和注意事项，去看这里：
【经验总结】Http，网页访问，request，response相关的知识

多种语言（Python/C#）实现抓取网页，模拟登陆网站

【教程】抓取网并提取网页中所需要的信息之 Python版
【教程】模拟登陆网站之 Python版（内含两种版本的完整的可运行的代码）
【教程】抓取网并提取网页中所需要的信息之 C#版
【教程】模拟登陆网站之 C#版（内含两种版本的完整的可运行的代码）

作者：黄聪

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航