您的位置：首页 > 其它

小白30分钟学会网页采集基础教程[有N多案例]

2018-03-01 09:25 323 查看

文中用到的爬虫制作工具：前往官网获取。

首先，以某个多页（需要自动翻页）表格数据的收集为例，先演示一次网页收集的完整的过程：
这是一张会动的Gif图，查看原图>>

演示这里使用的是，依次表格某一行的每个字段，可以自动识别出其他所有数据行，并自动创建循环列表；翻页按钮，选择“循环下一页”动作，就能自动创建翻页循环。

网页信息爪取相关的工具有很多，有需要代码配合使用的，也有几乎不用代码的。其实实现网页收集所用的代码越少，效率越高，维护起来越简单。今天以为例，演示这个工具的一些基础知识：

1：基础操作
1.1 新建任务

这是一张会动的Gif图，查看原图>>

1.2 导入规则

这是一张会动的Gif图，查看原图>>

制作好的规则是可以导出和导入的。规则文件是.otd后缀的文件，在安装了的系统中，双击可以启动导入；也可以在软件里批量导入。
上面演示中的百度网盘：https://pan.baidu.com/s/1d7thL0
可以下载下来，导入试试，仅供学习参考。

1.3 切换浏览器内核（手动或自动）

这是一张会动的Gif图，查看原图>>

1.4 定时自动启动演示

这是一张会动的Gif图，查看原图>>

在电脑上将任务设置完成并提交到云执行云收集之后，可以关闭软件，关闭电脑进行脱机收集，真正的实现无人值守。除此之外云收集云器集的分布式部署方式，多节点同时进行作业，可以提高收集效率，并且可以高效的避开各种网站的IP 策略。

2：基本步骤
2.1 打开网页
查看“打开网页”步骤的动图演示
在第一步填写网址的文本框中，可以设置上万条网址，实现批量操作。
在分布式云收集中，单线程单机收集完成1个网页的时间，分布式可完成6－10个网页抓取，相当于6－10台电脑同时运行；
在分布式私有云中，这个速度可以提高到30~100倍。相当于1小时完成最慢30个小时最快100个小时的收集量。换成数值的话，单机收集1万数据的时间，私有云可以完成约30万~100万。

2.2 元素（和自动循环翻页演示）
查看“ 元素”步骤的动图演示
在内置浏览器中网页任意位置，都可以选择“ ”操作，在收集流程中自动生成一个步骤。
如果，自动生成的步骤不能准确到元素，也可以手动修改Xpath，像上面演示中，在“自定义”选项中进行修改。
XPATH的使用方法可以参考另一篇文章《在哪里设置xpath》

2.3 提取数据
动图演示某汽车列表网页数据的抓取过程
演示中，我们需要自动地提取出列表中，每一个的信息。
当名称的时候，程序自动识别出其他（其他名称底色加深了），并提示“其他15个同类元素”，选择“选中全部”操作，就能自动为每个的数据生成循环自动处理。
不妨找一个类似的网页试试看，比如汽车之家等网站。

2.4 自动输入文本
网页中，一般文本框都是input元素或者textarea元素。如果某个文本框，没有“输入 ”操作可以选择，不妨多试几次，可能是没有点准这个INPUT 或 textarea元素。
查看“输入文本”步骤的动图演示

还可以设置一个文本列表，自动循环批量输入文本
查看循环“输入文本”步骤的动图演示

2.5 鼠标悬停
有些动态加载，鼠标放上才会加载并显示内容的情况，就需要“鼠标悬停”功能来实现。如下图：
动图演示淘宝动态加载店铺评分的收集
淘宝网搜索结果中，店铺三项评分是鼠标放上动态加载的，ajax延时设置为1秒，如果本地网络条件不好，1秒不够加载的话，可以设置的更长一点。
鼠标悬停不是常用的功能，可能不是特别好理解，建议感兴趣的话，拿来淘宝网页实际模仿一下。

2.6 判断条件
查看“判断条件”步骤的动图演示
演示中循环打开两个网页，分别是“百度网”和“新浪网”。
手动添加一个“判断条件”模块，设置上条件，使程序自动区分不同的网站。

以上就是常用的几种基本步骤。对于新手入门学习，一般可以满足需求了。

抓到的数据还可以直接进行可视化分析、文本语义分析，让 “说话”：

这是一张会动的Gif图，查看原图>>

更多实例演示，我都放在另一篇文章里了：《网页爬虫真实案例记录》

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航