如何不写代码通过爬虫软件采集表格数据
2016-07-09 18:06
507 查看
采集表格内容,包括列表形式的商品评论信息、正文中的表格等,凡是html代码采用<table>表单形式的表格,都可以不写代码,通过可视化的方式完成采集。
首先,我们使用的工具是前嗅大数据的ForeSpider数据采集系统。在前嗅大数据官网下载免费版(www.forenose.com),免费版就可以满足我们抓取图片的需求。
下载安装后,启动软件。根据如下步骤,即可抓取到图片或图片的地址了。
在ForeSpider中,采集表格的功能称之为“多值”。多值用于存储表格的数据,将表格的不同列对应存入不同字段,表格的不同行分别存储为数据表的多条记录。本文以某表格为例。
【需要多值存储的表格】
(一)创建表单
根据表格内容,创建一个存储表格数据的表单。在选项卡“表单”中,创建一个表单。
【多值的表结构】
1.主键
采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“文档主键”。
表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)
【主键字段的配置】
2.其他字段
其他字段的变量类型选择“string”,取值类型选择“取所有子节点内容”。
【其他字段的配置】
(二)创建数据抽取
创建数据抽取,为其选择表单“表格”。
【创建数据抽取和字段】
(三)识别多值
a995
点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。
【定位表格】
点击“多值”,选区扩大到整个表格。点击“保存”。
【保存表格】
(四)字段取值
主键字段不需要配置。存储表格内容的字段需要一一取值。
点击数据抽取的字段,为其一一配置表格不同列的数据。点击“descript”,按Ctrl点击第一列的任意单元格,点击“保存”。
【配置descript字段】
点击“Apache”,按Ctrl点击第二列的任意单元格,点击“保存”。
【配置Apache字段】
其他字段同理。一一配置完成后,预览当前模板。表格被完整的采集下来。
【预览结果】
首先,我们使用的工具是前嗅大数据的ForeSpider数据采集系统。在前嗅大数据官网下载免费版(www.forenose.com),免费版就可以满足我们抓取图片的需求。
下载安装后,启动软件。根据如下步骤,即可抓取到图片或图片的地址了。
在ForeSpider中,采集表格的功能称之为“多值”。多值用于存储表格的数据,将表格的不同列对应存入不同字段,表格的不同行分别存储为数据表的多条记录。本文以某表格为例。
【需要多值存储的表格】
(一)创建表单
根据表格内容,创建一个存储表格数据的表单。在选项卡“表单”中,创建一个表单。
【多值的表结构】
1.主键
采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“文档主键”。
表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)
【主键字段的配置】
2.其他字段
其他字段的变量类型选择“string”,取值类型选择“取所有子节点内容”。
【其他字段的配置】
(二)创建数据抽取
创建数据抽取,为其选择表单“表格”。
【创建数据抽取和字段】
(三)识别多值
a995
点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。
【定位表格】
点击“多值”,选区扩大到整个表格。点击“保存”。
【保存表格】
(四)字段取值
主键字段不需要配置。存储表格内容的字段需要一一取值。
点击数据抽取的字段,为其一一配置表格不同列的数据。点击“descript”,按Ctrl点击第一列的任意单元格,点击“保存”。
【配置descript字段】
点击“Apache”,按Ctrl点击第二列的任意单元格,点击“保存”。
【配置Apache字段】
其他字段同理。一一配置完成后,预览当前模板。表格被完整的采集下来。
【预览结果】
相关文章推荐
- tinypy源码笔记(二)——目录及构建分析
- ThinkPHP5修改默认的程序入口
- Java基础六
- 用C#语言实现八皇后问题
- 编写模块python
- 第五十七篇:VS2015建立一个完整的c++工程:头文件.h 源文件.cpp,自动生成类
- Java基础五
- 浅谈JavaEE中的Hibernate环境的搭建(二)
- Java基础四
- 从Uri到ContentProvider详解
- java序列化
- Python实现在给定整数序列中找到和为100的所有数字组合
- Java基础知识三
- C语言strchr()函数:查找某字符在字符串中首次出现的位置
- Struts2实现多个文件下载(改进版)
- windows下顺序安装numpy,matplotlib,scipy
- java重载/重写(覆盖)/重构比较及其与C++差异
- python系列2
- Java基础知识二
- SpringMVC 注解