淘宝客高佣金商品采集爬虫开发教程
2018-03-01 00:00
281 查看
摘要: 采集商品名称、月销、价格、佣金和店铺名称等字段
本文主要介绍在神箭手上开发“淘宝客高佣金商品采集爬虫”的过程,爬虫主要实现批量爬取淘宝客高佣金商品数据的功能,爬取字段包括商品名称、月销、价格和佣金等字段。
采集网站URL:http://pub.alimama.com/promo/item/channel/index.htm?channel=qqhd
使用功能点:
· afterDownloadPage、onProcessScanPage和afterExtractField回调函数
下面,给你详细说明“淘宝客高佣金商品采集爬虫”在神箭手上的开发过程:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/b8e4a79d15f007ed3d7f733f7fd27057.png)
点击“新建应用”,选择“爬虫”,点击“下一步”。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/eabba996be52439870fa7cae9abcb7f9.png)
输入爬虫名称“淘宝客高佣金商品采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/c1fb8a2ee1239685cebb559196069e11.png)
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/faf00acbe9eacebcb7fde0809fe25905.png)
在浏览器“开发者工具”中勾选“Preserve log”,按“F5”刷新网页,高佣金商品列表数据便会重新加载进来。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/ba06f029558d70465fbf1ac9568e55dc.png)
在浏览器“开发者工具”中选择“XHR”,搜索“qqhd.json”,便可找到存放商品信息的URL。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/25daa4105f82c72e1cfbb51a16e188bd.png)
分析请求该URL返回的JSON数据,结合“神箭手开发文档”,在神箭手爬虫编辑页开发爬虫代码。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/f56a8241ebfd3ab161e0a0dd5858dac7.png)
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/bd08285ae0e0dce2b50625215c15ff1d.png)
测试通过后,进入“爬虫设置”页,设置“代理IP”、“文件云托管”等服务,点击“保存”。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/dd53d57f314e4be7d681b867b78ad4f6.png)
返回爬虫总览页,点击“启动爬虫”,稍等片刻,爬虫就会爬到数据了。如果嫌弃爬虫的爬取速度,建议在神箭手后台给爬虫增加节点,或者优化爬虫代码。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/8bf64a2729255de93ceaeaad8afd0928.png)
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/1e52486b70e6155a6141305a6f34cb3e.png)
此外,还可选择将数据“导出”,点此查看神箭手数据导出详细教程。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/462a5aa4421fd6a30c57ece277a426ec.png)
神箭手上开发的“淘宝客高佣金商品采集爬虫”导出数据示例,如下图所示:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/d74e58d3ec1691fce8277e04847e8b1e.png)
“淘宝客高佣金商品采集爬虫”完整示例代码:
本文主要介绍在神箭手上开发“淘宝客高佣金商品采集爬虫”的过程,爬虫主要实现批量爬取淘宝客高佣金商品数据的功能,爬取字段包括商品名称、月销、价格和佣金等字段。
采集网站URL:http://pub.alimama.com/promo/item/channel/index.htm?channel=qqhd
使用功能点:
· afterDownloadPage、onProcessScanPage和afterExtractField回调函数
下面,给你详细说明“淘宝客高佣金商品采集爬虫”在神箭手上的开发过程:
步骤1 创建爬虫
注册并登录神箭手,进入神箭手控制台。![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/b8e4a79d15f007ed3d7f733f7fd27057.png)
点击“新建应用”,选择“爬虫”,点击“下一步”。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/eabba996be52439870fa7cae9abcb7f9.png)
输入爬虫名称“淘宝客高佣金商品采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/c1fb8a2ee1239685cebb559196069e11.png)
步骤2 分析网页&开发爬虫
本文使用Chrome浏览器分析淘宝客高佣金商品网页,按“F12”打开浏览器“开发者工具”。![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/faf00acbe9eacebcb7fde0809fe25905.png)
在浏览器“开发者工具”中勾选“Preserve log”,按“F5”刷新网页,高佣金商品列表数据便会重新加载进来。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/ba06f029558d70465fbf1ac9568e55dc.png)
在浏览器“开发者工具”中选择“XHR”,搜索“qqhd.json”,便可找到存放商品信息的URL。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/25daa4105f82c72e1cfbb51a16e188bd.png)
分析请求该URL返回的JSON数据,结合“神箭手开发文档”,在神箭手爬虫编辑页开发爬虫代码。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/f56a8241ebfd3ab161e0a0dd5858dac7.png)
步骤3 测试并运行爬虫
爬虫开发完成后,点击“测试”按钮,检查爬虫的爬取结果是否正确。![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/bd08285ae0e0dce2b50625215c15ff1d.png)
测试通过后,进入“爬虫设置”页,设置“代理IP”、“文件云托管”等服务,点击“保存”。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/dd53d57f314e4be7d681b867b78ad4f6.png)
返回爬虫总览页,点击“启动爬虫”,稍等片刻,爬虫就会爬到数据了。如果嫌弃爬虫的爬取速度,建议在神箭手后台给爬虫增加节点,或者优化爬虫代码。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/8bf64a2729255de93ceaeaad8afd0928.png)
步骤4 数据发布与导出
爬虫爬到数据后,可以选择将数据“发布到网站或数据库”中,点此查看神箭手数据发布详细教程。![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/1e52486b70e6155a6141305a6f34cb3e.png)
此外,还可选择将数据“导出”,点此查看神箭手数据导出详细教程。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/462a5aa4421fd6a30c57ece277a426ec.png)
神箭手上开发的“淘宝客高佣金商品采集爬虫”导出数据示例,如下图所示:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202001/22/d74e58d3ec1691fce8277e04847e8b1e.png)
“淘宝客高佣金商品采集爬虫”完整示例代码:
/** 淘宝客高佣金商品采集爬虫源码 爬虫最多可采集100页淘宝客高佣金商品信息 建议给爬虫配置神箭手代理IP,可有效解决淘宝客反爬问题 对于爬虫代码有不懂的地方,请参考神箭手开发文档(http://docs.shenjian.io/develop/crawler/quick-start.html) **/ var configs = { domains: ["pub.alimama.com"], scanUrls: ["http://pub.alimama.com/promo/item/channel/index.htm?channel=qqhd"], contentUrlRegexes: [ /http[\w:\/]+pub\.alimama\.com\/items\/channel\/qqhd\.json\?.*/ ], helperUrlRegexes: [""], autoFindUrls: false, fields: [ { name: "infos", selectorType: SelectorType.JsonPath, selector: "$.data.pageList", repeated: true, children: [ { name: "id", alias: "商品ID", selectorType: SelectorType.JsonPath, selector: "$.auctionId", required: true, primaryKey: true }, { name: "name", alias: "商品名称", selectorType: SelectorType.JsonPath, selector: "$.title" }, { name: "image", alias: "商品图片", selectorType: SelectorType.JsonPath, selector: "$.pictUrl" }, { name: "price", alias: "商品价格", selectorType: SelectorType.JsonPath, selector: "$.zkPrice" }, { name: "monthly_sales", alias: "月销量", selectorType: SelectorType.JsonPath, selector: "$.biz30day" }, { name: "commision", alias: "商品佣金", selectorType: SelectorType.JsonPath, selector: "$.tkCommFee" }, { name: "commision_rate", alias: "佣金比率", selectorType: SelectorType.JsonPath, selector: "$.eventRate" }, { name: "day_left", alias: "剩余活动天数", selectorType: SelectorType.JsonPath, selector: "$.dayLeft" }, { name: "url", alias: "商品链接", selectorType: SelectorType.JsonPath, selector: "$.auctionUrl" }, { name: "shop_name", alias: "店铺名称", selectorType: SelectorType.JsonPath, selector: "$.shopTitle" } ] } ] }; configs.afterDownloadPage = function (page, site) { msleep(10000); return page; }; configs.onProcessScanPage = function(page, content, site) { for (var i = 1; i <= 100; i++) { var url = "http://pub.alimama.com/items/channel/qqhd.json?channel=qqhd&toPage=" + i + "&perPageSize=50"; site.addUrl(url); } return false; }; configs.afterExtractField = function(fieldName, data, page, site) { if (!data) { return data; } if (fieldName == "infos.image") { return "https:" + data; } else if (fieldName == "infos.commision_rate") { return data + "%"; } return data; }; var crawler = new Crawler(configs); crawler.start();
相关文章推荐
- 淘宝客高佣金商品采集爬虫开发教程
- 京东商品评价信息采集爬虫开发教程
- 网页爬虫技术之京东商品采集教程图解
- 金融界货币型基金净值采集爬虫开发教程
- 药智网保健食品采集爬虫开发教程
- 药智网保健食品采集爬虫开发教程
- 百度糯米电影信息采集爬虫开发教程
- 采集网页列表页总数-php爬虫采集教程4
- 网络爬虫开发入门教程(三):内置函数
- 采集列表页总数-php采集网页-php爬虫视频教程4
- 用C#开发蜘蛛网络爬虫采集程序(附源码)(二)
- 采集内容页网址-php爬虫采集教程5
- NVIDIA Jetson TX1 系列开发教程之九:USB摄像头MJPEG格式图像采集
- 爱站网关键字挖掘爬虫开发教程
- 网页爬虫技术之美团商家评论数据采集教程图解
- post方式采集网页数据-php采集网页-php爬虫视频教程7
- 采集上万,百万的网页内容网址-php采集网页-php爬虫视频教程5
- php多线程采集网页数据-php采集网页-php爬虫视频教程8
- 网页采集实践:配置京东商品评论爬虫(值得收藏)
- 批量采集上百万网页内容-php采集网页-php爬虫视频教程6