采集练习(八) php 获得网易精彩跟贴数据
2013-03-15 00:06
183 查看
自古网易出人才,网易评论是我每天必看的,网友的智慧是无限的,看网易评论长阅历,放松心情。刚好最近写采集 于是就分析下网易评论的数据,发现网易的数据也是json形式加载过来的。
可以采集的 评论有:
精彩跟帖 http://tie.163.com/plaza/recommend.html
精彩盖楼 http://tie.163.com/plaza/build.html
网友热议 http://tie.163.com/plaza/topVote.html
下面只以网易精彩跟帖做例子分析采集:
网易精彩跟帖 http://tie.163.com/plaza/recommend.html 有3页 90条跟帖
用chrome 打开网址 在 开发者工具 -> console 下 可以看到 网页上的数据来自 http://tie.163.com/plaza/data/1/recommend.html 这是第一页的数据
返回一个 var replyData={"totalNum":90,"finePosts":xxxx........xxxxxx}; 的js对象;
其实这个js对象 去掉 开头的 'var replyData=' 和末尾的 ';' 就是个json ;
于是php就可以用json_decode函数转化为数组了;
可以采集的 评论有:
精彩跟帖 http://tie.163.com/plaza/recommend.html
精彩盖楼 http://tie.163.com/plaza/build.html
网友热议 http://tie.163.com/plaza/topVote.html
下面只以网易精彩跟帖做例子分析采集:
网易精彩跟帖 http://tie.163.com/plaza/recommend.html 有3页 90条跟帖
用chrome 打开网址 在 开发者工具 -> console 下 可以看到 网页上的数据来自 http://tie.163.com/plaza/data/1/recommend.html 这是第一页的数据
返回一个 var replyData={"totalNum":90,"finePosts":xxxx........xxxxxx}; 的js对象;
其实这个js对象 去掉 开头的 'var replyData=' 和末尾的 ';' 就是个json ;
于是php就可以用json_decode函数转化为数组了;
/** * Created by JetBrains PhpStorm. * User: keygle * From: www.cnblogs.com/keygle * Date: 13-3-14 * Time: 下午10:58 * * 获得网易精彩跟帖 3页 90条数据 */ $conmentData = array(); for($i=1;$i<4;$i++){ $conments = array(); $recommend= 'http://tie.163.com/plaza/data/'.$i.'/recommend.html'; $strData = @file_get_contents($recommend); $commentJson = ltrim($strData,'var replyData='); //去掉 字符串开头的 var replyData= $commentJson = rtrim($commentJson,';'); //去掉 字符串末尾的 ; $conments = json_decode($commentJson,true); foreach($conments['finePosts'] as $val): $conmentData[] = $val; endforeach; } //print_r($conmentData);
相关文章推荐
- 采集练习(十) php 获得电视节目预告---数据来自搜视网
- 采集练习(十一) php 获得电视节目预告---数据来自电视猫
- 采集练习(一) php 获得全国的小学(数据来自腾讯朋友网)
- 采集练习(三) php 采集当当网图书的数据(初版)
- 采集练习(九) php 获得手机号归属地
- 采集练习(二) php 获得hao123导航图片分类下的美女图片
- 采集练习(五) php 获得chrome扩展 微度新标签页 下的云壁纸(主要是美女壁纸)
- 采集练习(七) php 获得电视节目预告(一周节目)
- PHP模拟POST提交数据并获得返回值之CURL方法(使用PHP extension,然后使用php_curl.dll,很不错)
- PHP开发的页面数据采集程序 的基础类
- PHP采集利器:根据开始字符串和结束字符串截取需要的采集内容数据
- php 模拟登录淘宝taobao阿里妈妈|模拟登录淘宝联盟|curl模拟登录淘宝|模拟登陆淘宝采集数据
- PHP 小技巧之(4)如何获得txt文件中的一行数据?
- php中使用ExcelFileParser处理excel获得数据(可作批量导入到数据库使用)
- PHP页面数据采集程序的一个插件子类
- 基于PHP采集数据入库程序(一)
- PHP 采集数据 金色-快讯
- 基于PHP的简单采集数据入库程序
- 基于PHP的简单采集数据入库程序