您的位置:首页 > 其它

用八爪鱼制作的阿里巴巴1688网页爬虫

2018-03-20 10:02 1096 查看
本文演示收集1688-热门词- 鞋的方法。。

在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录

文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。

使用功能点:
l 分页列表及详细信息提取
l AJAX 和翻页

步骤1:创建收集任务
1)进入主界面,选择“自定义模式”



大图>>
2)将要收集的网址复制粘贴到网站输入框中, “保存网址”



大图>>

步骤2:创建翻页循环
1)打开“流程”,以更清楚地看到每一步操作。将页面下拉到底部, “下一页”按钮,在右侧的操作提示框中,选择“循环 下一页”



大图>>
由于此网页涉及Ajax技术,我们需要进行一些高级选项的设置。选中“ 元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”



大图>>
注:AJAX即延时加载、异步更新的一种脚本技术, 在 与 器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
表现特征:a、 网页中某个选项时,大部分网站的网址不会改变;b、网页不是完全加载,只是局部进行了数据加载,有所变化。
验证方式: 操作后,在浏览器中,网址输入栏不会出现加载中的状态或者转圈状态。

步骤3:创建列表循环
1)移动鼠标,选中页面里的第一条搜索结果的链接。系统会自动识别此页面中的同类链接, “选中全部”



大图>>

2)选择“循环 每个链接”,以创建一个列表循环



大图>>

步骤4:提取商品信息
1)在创建列表循环后,系统会自动 第一条商品信息的链接,进入商品详情页。 需要的字段信息,在右侧的操作提示框中,选择“收集该元素的文本”



大图>>
2)继续 要收集的字段,选择“收集该元素的文本”。收集的字段会自动添加到上方的数据编辑框中。选中相应的字段,可以进行字段的自定义命名。自定义命名完成后, “保存并开始收集”



大图>>

3)选择“启动本地收集”



大图>>

步骤5:数据收集及导出
1)收集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将收集好的数据导出



大图>>
2)这里我们选择excel作为导出为格式,数据导出后如下图



大图>>

文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: