Hadoop组件,(ETL数据清洗)Pig,Sqoop文件搬运工具基础操作
2018-01-03 20:21
661 查看
pig组件
基本定义:
1.字段 field 作为基本的元素
2.n个字段组成一个元组 tuple
3.n个元组组成一个包 bag(nd表或者平面表)
其实所有的操作都会被计算机迭代遍历,快速迭代抽象成了行列级操作
PIG 加载和保存所支持的文件格式:
-----------------------------------------------------------------
--load_format加载格式------store_format保存格式 -------
--1.- Pigstorage-------------Pigstorage
-------
--2.- Textloader--------------None
------
--3.- Josnloader----------Josnstorage------
--4.- Binstorage----------Binstorage------
--5.- HBaseloader-------HBasestorage------
-------------------------------------------------------------------
基本操作:
含义:1. [参数] 2.子集:各种查询分组等操作返回的数据集
行级操作:
数据加载: LOAD' [ [dir] filename]'[USING Pigstorage '分隔符' ] AS
([key1]:[type] , [key2]:[type], ...);
数据筛选查询:FILTER BY[字段筛选表达式 [other more]];BY [字段]MATCH '正则表达式'GENERATE [字段筛选操作]AS [添加新字段名BY 字段ALLINTO name1 if [字段逻辑判断1],name2 if [字段逻辑判断2],name3[字段逻辑判断3]
基本定义:
1.字段 field 作为基本的元素
2.n个字段组成一个元组 tuple
3.n个元组组成一个包 bag(nd表或者平面表)
其实所有的操作都会被计算机迭代遍历,快速迭代抽象成了行列级操作
PIG 加载和保存所支持的文件格式:
-----------------------------------------------------------------
--load_format加载格式------store_format保存格式 -------
--1.- Pigstorage-------------Pigstorage
-------
--2.- Textloader--------------None
------
--3.- Josnloader----------Josnstorage------
--4.- Binstorage----------Binstorage------
--5.- HBaseloader-------HBasestorage------
-------------------------------------------------------------------
基本操作:
含义:1. [参数] 2.子集:各种查询分组等操作返回的数据集
行级操作:
数据加载: LOAD' [ [dir] filename]'[USING Pigstorage '分隔符' ] AS
([key1]:[type] , [key2]:[type], ...);
数据筛选查询:FILTER