用八爪鱼制作的阿里巴巴1688网页爬虫
2018-03-20 10:02
1096 查看
本文演示收集1688-热门词- 鞋的方法。。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
使用功能点:
l 分页列表及详细信息提取
l AJAX 和翻页
步骤1:创建收集任务
1)进入主界面,选择“自定义模式”
![](http://bzy.dream-world.cn/images_3363-0s.jpg)
大图>>
2)将要收集的网址复制粘贴到网站输入框中, “保存网址”
![](http://bzy.dream-world.cn/images_3363-1s.png)
大图>>
步骤2:创建翻页循环
1)打开“流程”,以更清楚地看到每一步操作。将页面下拉到底部, “下一页”按钮,在右侧的操作提示框中,选择“循环 下一页”
![](http://bzy.dream-world.cn/images_3363-2s.jpg)
大图>>
由于此网页涉及Ajax技术,我们需要进行一些高级选项的设置。选中“ 元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”
![](http://bzy.dream-world.cn/images_3363-3s.jpg)
大图>>
注:AJAX即延时加载、异步更新的一种脚本技术, 在 与 器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
表现特征:a、 网页中某个选项时,大部分网站的网址不会改变;b、网页不是完全加载,只是局部进行了数据加载,有所变化。
验证方式: 操作后,在浏览器中,网址输入栏不会出现加载中的状态或者转圈状态。
步骤3:创建列表循环
1)移动鼠标,选中页面里的第一条搜索结果的链接。系统会自动识别此页面中的同类链接, “选中全部”
![](http://bzy.dream-world.cn/images_3363-4s.jpg)
大图>>
2)选择“循环 每个链接”,以创建一个列表循环
![](http://bzy.dream-world.cn/images_3363-5s.jpg)
大图>>
步骤4:提取商品信息
1)在创建列表循环后,系统会自动 第一条商品信息的链接,进入商品详情页。 需要的字段信息,在右侧的操作提示框中,选择“收集该元素的文本”
![](http://bzy.dream-world.cn/images_3363-6s.jpg)
大图>>
2)继续 要收集的字段,选择“收集该元素的文本”。收集的字段会自动添加到上方的数据编辑框中。选中相应的字段,可以进行字段的自定义命名。自定义命名完成后, “保存并开始收集”
![](http://bzy.dream-world.cn/images_3363-7s.jpg)
大图>>
3)选择“启动本地收集”
![](http://bzy.dream-world.cn/images_3363-8s.jpg)
大图>>
步骤5:数据收集及导出
1)收集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将收集好的数据导出
![](http://bzy.dream-world.cn/images_3363-9s.jpg)
大图>>
2)这里我们选择excel作为导出为格式,数据导出后如下图
![](http://bzy.dream-world.cn/images_3363-10s.jpg)
大图>>
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
使用功能点:
l 分页列表及详细信息提取
l AJAX 和翻页
步骤1:创建收集任务
1)进入主界面,选择“自定义模式”
![](http://bzy.dream-world.cn/images_3363-0s.jpg)
大图>>
2)将要收集的网址复制粘贴到网站输入框中, “保存网址”
![](http://bzy.dream-world.cn/images_3363-1s.png)
大图>>
步骤2:创建翻页循环
1)打开“流程”,以更清楚地看到每一步操作。将页面下拉到底部, “下一页”按钮,在右侧的操作提示框中,选择“循环 下一页”
![](http://bzy.dream-world.cn/images_3363-2s.jpg)
大图>>
由于此网页涉及Ajax技术,我们需要进行一些高级选项的设置。选中“ 元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”
![](http://bzy.dream-world.cn/images_3363-3s.jpg)
大图>>
注:AJAX即延时加载、异步更新的一种脚本技术, 在 与 器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
表现特征:a、 网页中某个选项时,大部分网站的网址不会改变;b、网页不是完全加载,只是局部进行了数据加载,有所变化。
验证方式: 操作后,在浏览器中,网址输入栏不会出现加载中的状态或者转圈状态。
步骤3:创建列表循环
1)移动鼠标,选中页面里的第一条搜索结果的链接。系统会自动识别此页面中的同类链接, “选中全部”
![](http://bzy.dream-world.cn/images_3363-4s.jpg)
大图>>
2)选择“循环 每个链接”,以创建一个列表循环
![](http://bzy.dream-world.cn/images_3363-5s.jpg)
大图>>
步骤4:提取商品信息
1)在创建列表循环后,系统会自动 第一条商品信息的链接,进入商品详情页。 需要的字段信息,在右侧的操作提示框中,选择“收集该元素的文本”
![](http://bzy.dream-world.cn/images_3363-6s.jpg)
大图>>
2)继续 要收集的字段,选择“收集该元素的文本”。收集的字段会自动添加到上方的数据编辑框中。选中相应的字段,可以进行字段的自定义命名。自定义命名完成后, “保存并开始收集”
![](http://bzy.dream-world.cn/images_3363-7s.jpg)
大图>>
3)选择“启动本地收集”
![](http://bzy.dream-world.cn/images_3363-8s.jpg)
大图>>
步骤5:数据收集及导出
1)收集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将收集好的数据导出
![](http://bzy.dream-world.cn/images_3363-9s.jpg)
大图>>
2)这里我们选择excel作为导出为格式,数据导出后如下图
![](http://bzy.dream-world.cn/images_3363-10s.jpg)
大图>>
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
相关文章推荐
- 用八爪鱼制作的亚马逊商品销售排行榜信息网页爬虫
- 用八爪鱼制作的东方财富网股票信息网页爬虫
- 制作简单的网页爬虫
- 网页数据采集: 制作Amazon亚马逊网商品评论网页爬虫
- python脚本工具-1 制作爬虫下载网页图片
- 网页爬虫进阶系列之百度地图搜索结果列表爬虫制作
- 制作一个简单的网页爬虫爬取一张网页的特定图片
- 网页爬虫进阶系列之美团店铺信息爬虫制作
- 图解“百度百科内容”网页爬虫制作的相关问题
- 网页数据采集: 制作百度贴吧网页爬虫
- 用cURL 制作一个简单的网页爬虫
- java正则表达式简单使用和网页爬虫的制作代码
- 网页爬虫实例:采集1688热门商品
- 网页爬虫进阶系列之ebay商品图片爬虫制作
- 网页数据采集: 制作微博采集网页爬虫
- Node.js 利用cheerio制作简单的网页爬虫示例
- 网页数据采集: 制作京东关键词网页爬虫
- 图解“淘宝商品图片”网页爬虫制作的相关问题
- java正则表达式和网页爬虫的制作
- 网页爬虫进阶系列之东方财富网信息爬虫制作