您的位置:首页 > 其它

淘宝数据采集-火车头采集之多页采集

2014-07-20 08:56 246 查看
1.如何采集淘宝产品图片大图?

淘宝产品小图格式一般为:http://gd4.alicdn.com/bao/uploaded/i4/T1CMpIFM8XXXXXXXXX_!!0-item_pic.jpg_50x50.jpg

大图的格式一般为:http://gd4.alicdn.com/bao/uploaded/i4/T1CMpIFM8XXXXXXXXX_!!0-item_pic.jpg_600x600.jpg

利用正则匹配即可得到真实的大图地址。

 

2.如何采集淘宝产品描述?

淘宝的描述是用ajax异步获取的,研究了html发现真实的地址是:"apiItemDesc":"http://dsc.taobaocdn.com/i7/380/241/38624980066/T1ULBiFG8eXXcWeqbX.desc%7Cvar%5Edesc%3Bsign%5E2e7278bcb05832f21ecab94708b3523e%3Blang%5Egbk%3Bt%5E1402729711",

再利用火车头采集器的多页管理,先新建一个多页:



保存多页后点击“切换到无限极多页编辑模式”,如下图



然后点击“编辑多页规则”
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: