您的位置：首页 > 大数据

淘宝客高佣金商品采集爬虫开发教程

2018-03-01 00:00 281 查看

摘要: 采集商品名称、月销、价格、佣金和店铺名称等字段

本文主要介绍在神箭手上开发“淘宝客高佣金商品采集爬虫”的过程，爬虫主要实现批量爬取淘宝客高佣金商品数据的功能，爬取字段包括商品名称、月销、价格和佣金等字段。

采集网站URL：http://pub.alimama.com/promo/item/channel/index.htm?channel=qqhd

使用功能点：

· afterDownloadPage、onProcessScanPage和afterExtractField回调函数

下面，给你详细说明“淘宝客高佣金商品采集爬虫”在神箭手上的开发过程：

步骤1 创建爬虫

注册并登录神箭手，进入神箭手控制台。

点击“新建应用”，选择“爬虫”，点击“下一步”。

输入爬虫名称“淘宝客高佣金商品采集爬虫”，选择“编辑模式”，点击“创建”，神箭手爬虫创建成功。

步骤2 分析网页&开发爬虫

本文使用Chrome浏览器分析淘宝客高佣金商品网页，按“F12”打开浏览器“开发者工具”。

在浏览器“开发者工具”中勾选“Preserve log”，按“F5”刷新网页，高佣金商品列表数据便会重新加载进来。

在浏览器“开发者工具”中选择“XHR”，搜索“qqhd.json”，便可找到存放商品信息的URL。

分析请求该URL返回的JSON数据，结合“神箭手开发文档”，在神箭手爬虫编辑页开发爬虫代码。

步骤3 测试并运行爬虫

爬虫开发完成后，点击“测试”按钮，检查爬虫的爬取结果是否正确。

测试通过后，进入“爬虫设置”页，设置“代理IP”、“文件云托管”等服务，点击“保存”。

返回爬虫总览页，点击“启动爬虫”，稍等片刻，爬虫就会爬到数据了。如果嫌弃爬虫的爬取速度，建议在神箭手后台给爬虫增加节点，或者优化爬虫代码。

步骤4 数据发布与导出

爬虫爬到数据后，可以选择将数据“发布到网站或数据库”中，点此查看神箭手数据发布详细教程。

此外，还可选择将数据“导出”，点此查看神箭手数据导出详细教程。

神箭手上开发的“淘宝客高佣金商品采集爬虫”导出数据示例，如下图所示：

“淘宝客高佣金商品采集爬虫”完整示例代码：

/**
淘宝客高佣金商品采集爬虫源码
爬虫最多可采集100页淘宝客高佣金商品信息
建议给爬虫配置神箭手代理IP，可有效解决淘宝客反爬问题
对于爬虫代码有不懂的地方，请参考神箭手开发文档（http://docs.shenjian.io/develop/crawler/quick-start.html）
**/

var configs = {
domains: ["pub.alimama.com"],
scanUrls: ["http://pub.alimama.com/promo/item/channel/index.htm?channel=qqhd"],
contentUrlRegexes: [
/http[\w:\/]+pub\.alimama\.com\/items\/channel\/qqhd\.json\?.*/
],
helperUrlRegexes: [""],
autoFindUrls: false,
fields: [
{
name: "infos",
selectorType: SelectorType.JsonPath,
selector: "$.data.pageList",
repeated: true,
children: [
{
name: "id",
alias: "商品ID",
selectorType: SelectorType.JsonPath,
selector: "$.auctionId",
required: true,
primaryKey: true
},
{
name: "name",
alias: "商品名称",
selectorType: SelectorType.JsonPath,
selector: "$.title"
},
{
name: "image",
alias: "商品图片",
selectorType: SelectorType.JsonPath,
selector: "$.pictUrl"
},
{
name: "price",
alias: "商品价格",
selectorType: SelectorType.JsonPath,
selector: "$.zkPrice"
},
{
name: "monthly_sales",
alias: "月销量",
selectorType: SelectorType.JsonPath,
selector: "$.biz30day"
},
{
name: "commision",
alias: "商品佣金",
selectorType: SelectorType.JsonPath,
selector: "$.tkCommFee"
},
{
name: "commision_rate",
alias: "佣金比率",
selectorType: SelectorType.JsonPath,
selector: "$.eventRate"
},
{
name: "day_left",
alias: "剩余活动天数",
selectorType: SelectorType.JsonPath,
selector: "$.dayLeft"
},
{
name: "url",
alias: "商品链接",
selectorType: SelectorType.JsonPath,
selector: "$.auctionUrl"
},
{
name: "shop_name",
alias: "店铺名称",
selectorType: SelectorType.JsonPath,
selector: "$.shopTitle"
}
]
}
]
};

configs.afterDownloadPage = function (page, site) {
msleep(10000);
return page;
};

configs.onProcessScanPage = function(page, content, site) {
for (var i = 1; i <= 100; i++) {
var url = "http://pub.alimama.com/items/channel/qqhd.json?channel=qqhd&toPage=" + i + "&perPageSize=50";
site.addUrl(url);
}
return false;
};

configs.afterExtractField = function(fieldName, data, page, site) {
if (!data) {
return data;
}
if (fieldName == "infos.image") {
return "https:" + data;
}
else if (fieldName == "infos.commision_rate") {
return data + "%";
}
return data;
};

var crawler = new Crawler(configs);
crawler.start();

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 神箭手大数据平台淘宝客高佣金商品采集爬虫开发教程

相关文章推荐

新的分享

章节导航