使用Snoopy进行模拟登陆、采集
2014-04-24 11:38
204 查看
内容提示:浏览器的所有行为,可以实现的功能有:比起使用curl,fsockopen等函数来说方便很多,下面总结一下这个类一些属性与方法的作用。方法: fetch($url) 该方法用于抓取网页内容,类似于file_get_contents submit($posturl,$params,$files)该方法提交表单数据,第二个参数是...
Snoopy是一个使用PHP写的采集类,使用了一下发现功能比较强大,几乎可以模拟浏览器的所有行为,可以实现的功能有:
比起使用curl,fsockopen等函数来说方便很多,下面总结一下这个类一些属性与方法的作用。
方法:
fetch($url) 该方法用于抓取网页内容,类似于file_get_contents
submit($posturl,$params,$files)该方法提交表单数据,第二个参数是一个一维数组,例如array('user'=>'zhangsan','pwd'=>'lisi'),第三个参数是可选参数,上传文件时用到,例如array('myfile' =>'./images/test.jpg')
fetchlinks($url) 该方法用于获取网页所有链接
fetchform($url) 该方法用于获取网页上的form表单内容
fetchtext($url) 该方法用户获取不带标签的网页内容
submitlinks($posturl,$params)该方法提交表单数据参数与submit方法相同,不同点是获取到的结果数据是链接
submittext($posturl,$params)该方法提交表单数据参数与submit方法相同,不同点是获取到的结果数据是文本数据
set_submit_multipart()该方法没有参数,文件上传时有效类似于设置表单中的enctype="multipart/form-data"
set_submit_normal() 该方法没有参数,相当于设置一个普通表单,不可用户文件
setcookies()该方法没有参数,保存响应cookie信息 用于下一次请求
常用属性:
$obj->agent = 'Mozilla/5.0 (Windows; U; Windows NT6.1; zh-CN; rv:1.9.2.25) Gecko/20111212Firefox/3.6.25';//伪装浏览器
$obj->rawheaders['Cookie']='username=zhangsan;password=123456';//伪装cookie不能与$obj->cookies同时使用
$obj->rawheaders['X_FORWARDED_FOR']= '115.47.134.108'; //伪造IP
$obj->referer= 'http://www.com133.com/'; //伪造来源地址
$obj->cookies['test'] = 'zhangsan'; //伪装cookie不能与$obj->rawheaders['Cookie']同时使用
$obj->results 获取采集结果
下面给出示例代码供参考
原标题:使用Snoopy进行模拟登陆、采集
Snoopy是一个使用PHP写的采集类,使用了一下发现功能比较强大,几乎可以模拟浏览器的所有行为,可以实现的功能有:
比起使用curl,fsockopen等函数来说方便很多,下面总结一下这个类一些属性与方法的作用。
方法:
fetch($url) 该方法用于抓取网页内容,类似于file_get_contents
submit($posturl,$params,$files)该方法提交表单数据,第二个参数是一个一维数组,例如array('user'=>'zhangsan','pwd'=>'lisi'),第三个参数是可选参数,上传文件时用到,例如array('myfile' =>'./images/test.jpg')
fetchlinks($url) 该方法用于获取网页所有链接
fetchform($url) 该方法用于获取网页上的form表单内容
fetchtext($url) 该方法用户获取不带标签的网页内容
submitlinks($posturl,$params)该方法提交表单数据参数与submit方法相同,不同点是获取到的结果数据是链接
submittext($posturl,$params)该方法提交表单数据参数与submit方法相同,不同点是获取到的结果数据是文本数据
set_submit_multipart()该方法没有参数,文件上传时有效类似于设置表单中的enctype="multipart/form-data"
set_submit_normal() 该方法没有参数,相当于设置一个普通表单,不可用户文件
setcookies()该方法没有参数,保存响应cookie信息 用于下一次请求
常用属性:
$obj->agent = 'Mozilla/5.0 (Windows; U; Windows NT6.1; zh-CN; rv:1.9.2.25) Gecko/20111212Firefox/3.6.25';//伪装浏览器
$obj->rawheaders['Cookie']='username=zhangsan;password=123456';//伪装cookie不能与$obj->cookies同时使用
$obj->rawheaders['X_FORWARDED_FOR']= '115.47.134.108'; //伪造IP
$obj->referer= 'http://www.com133.com/'; //伪造来源地址
$obj->cookies['test'] = 'zhangsan'; //伪装cookie不能与$obj->rawheaders['Cookie']同时使用
$obj->results 获取采集结果
下面给出示例代码供参考
原标题:使用Snoopy进行模拟登陆、采集
本文地址:http://www.rrzhai.com/p/3022(转载请注明出处)
相关文章推荐
- 使用Snoopy进行模拟登陆、采集
- 使用Snoopy进行模拟登陆、采集
- 使用Snoopy进行模拟登陆、采集
- 使用Python进行模拟登陆
- PHP中使用snoopy采集类进行数据抓取
- 使用python3进行12306模拟登陆下单流程
- 使用selenium进行微博的模拟登陆
- snoopy模拟登陆后采集https开头的aspx类站点的数据
- 利用WebClient实现对Http协议的Post和Get对网站进行模拟登陆和浏览
- c# 使用 HttpWebRequest模拟登陆(附带验证码)
- C#使用HttpWebRequest模拟登陆(附带验证码)
- Snoopy类库实现模拟登陆
- HttpClient 模拟登陆,保持会话并进行后续操作
- 使用C#的HttpWebRequest模拟登陆网站
- php使用curl模拟登录后采集页面的例子
- linux下使用文件来模拟硬盘进行ASM测试-开发技术
- P-1.2 模拟使用某种策略进行抛硬币赌博的结果
- 使用OkHttp模拟登陆LeetCode
- 使用 ArcGIS Online和APP进行监控操作和数据采集
- 使用HtmlUnit模拟登陆新浪微博