如何使用淘宝商品信息采集爬虫-采集电商商品
2017-11-23 00:00
288 查看
摘要: 本文主要介绍“淘宝商品信息采集爬虫”的使用技巧及注意事项
对于刚接触神箭手(http://www.shenjian.io/)的童鞋,在使用神箭手大数据市场(http://www.shenjian.io/index.php?r=market/productList)提供的爬虫时,往往会忽略一些爬虫的配置细节~~
首先,你得注册一个神箭手账号,然后登陆到你的神箭手控制台,看图吧,此处不做赘述嘤嘤~~
其次,你需要在“神箭手大数据市场”(http://www.shenjian.io/index.php?r=market/productList)输入“淘宝”,找到“淘宝商品信息采集爬虫”(http://www.shenjian.io/index.php?r=market/product&product_id=500078)并获取爬虫。进入爬虫总览页,切记,不要急于启动爬虫,你需要先配置神箭手爬虫。
在神箭手“爬虫设置”页面,先对日志进行设置,勾选“只打印关键日志”可以提高不少神箭手爬虫的爬取速率。
然后,选择你爬取方式(按关键字,按店铺)。关键字可以输入多个,也可输入包含关键字的链接,批量操作;淘宝店铺url的输入同理。之后,选择需爬取的字段,保存即可启动神箭手爬虫爬取数据了。
按关键字爬取商品时,可选字段如下:
按淘宝店铺爬取商品时,可选字段如下:
童鞋们,看完是不是有恍然大悟的赶脚~~~
赶快来试试神箭手提供的“淘宝商品信息采集爬虫”吧~~
此外,神箭手还未小白开发用户提供了爬虫防屏蔽利器——代理IP切换服务(http://docs.shenjian.io/develop/extensions/proxy.html),有兴趣的童鞋,点击链接看看吧!!!
对于刚接触神箭手(http://www.shenjian.io/)的童鞋,在使用神箭手大数据市场(http://www.shenjian.io/index.php?r=market/productList)提供的爬虫时,往往会忽略一些爬虫的配置细节~~
首先,你得注册一个神箭手账号,然后登陆到你的神箭手控制台,看图吧,此处不做赘述嘤嘤~~
其次,你需要在“神箭手大数据市场”(http://www.shenjian.io/index.php?r=market/productList)输入“淘宝”,找到“淘宝商品信息采集爬虫”(http://www.shenjian.io/index.php?r=market/product&product_id=500078)并获取爬虫。进入爬虫总览页,切记,不要急于启动爬虫,你需要先配置神箭手爬虫。
在神箭手“爬虫设置”页面,先对日志进行设置,勾选“只打印关键日志”可以提高不少神箭手爬虫的爬取速率。
然后,选择你爬取方式(按关键字,按店铺)。关键字可以输入多个,也可输入包含关键字的链接,批量操作;淘宝店铺url的输入同理。之后,选择需爬取的字段,保存即可启动神箭手爬虫爬取数据了。
按关键字爬取商品时,可选字段如下:
按淘宝店铺爬取商品时,可选字段如下:
童鞋们,看完是不是有恍然大悟的赶脚~~~
赶快来试试神箭手提供的“淘宝商品信息采集爬虫”吧~~
此外,神箭手还未小白开发用户提供了爬虫防屏蔽利器——代理IP切换服务(http://docs.shenjian.io/develop/extensions/proxy.html),有兴趣的童鞋,点击链接看看吧!!!
相关文章推荐
- 如何使用爬虫采集天猫店铺商品信息
- 如何使用爬虫采集58招聘信息
- 使用php采集电商网站的商品信息
- Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
- 如何使用爬虫采集美团外卖商家信息
- Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
- Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
- 使用python + selenium爬取淘宝商品信息
- 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫
- 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫
- [笔记]python爬虫:淘宝商品价格信息爬取示例
- 爬虫实践---Selenium-抓取淘宝搜索商品信息
- PHP实现采集淘宝商品信息
- 使用Selenium模拟浏览器抓取淘宝商品美食信息
- 教您使用java爬虫gecco抓取JD全部商品信息(一)
- 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫
- 教您使用java爬虫gecco抓取JD全部商品信息
- 如何不编程也能使用爬虫采集图片或图片地址
- 京东商品信息和评价采集爬虫源码
- 教您使用java爬虫gecco抓取JD全部商品信息(二)