您的位置：首页 > 其它

用八爪鱼制作的阿里巴巴1688网页爬虫

2018-03-20 10:02 1096 查看

本文演示收集1688-热门词- 鞋的方法。。

在开始之前，可以先参考一下这些文章，希望有帮助：
小白30分钟学会网页爬虫
网页爬虫真实案例记录

文中用到的爬虫工具（官网），只作为演示使用，实际应用中可以替换成自己拿手的工具或代码语言即可。

使用功能点：
l 分页列表及详细信息提取
l AJAX 和翻页

步骤1：创建收集任务
1）进入主界面，选择“自定义模式”

大图>>
2）将要收集的网址复制粘贴到网站输入框中， “保存网址”

大图>>

步骤2：创建翻页循环
1）打开“流程”，以更清楚地看到每一步操作。将页面下拉到底部， “下一页”按钮，在右侧的操作提示框中，选择“循环下一页”

大图>>
由于此网页涉及Ajax技术，我们需要进行一些高级选项的设置。选中“ 元素”步骤，打开“高级选项”，勾选“Ajax加载数据”，设置时间为“2秒”

大图>>
注：AJAX即延时加载、异步更新的一种脚本技术，在与器进行少量数据交换，可以在不重新加载整个网页的情况下，对网页的某部分进行更新。
表现特征：a、网页中某个选项时，大部分网站的网址不会改变；b、网页不是完全加载，只是局部进行了数据加载，有所变化。
验证方式：操作后，在浏览器中，网址输入栏不会出现加载中的状态或者转圈状态。

步骤3：创建列表循环
1）移动鼠标，选中页面里的第一条搜索结果的链接。系统会自动识别此页面中的同类链接， “选中全部”