您的位置:首页 > 大数据

Pig系统分析(1)-概述

2014-04-21 17:13 197 查看
本系列文章分析Pig运行主线流程,目的是借鉴Pig Latin on
Hadoop,探索(类)Pig Latin on
Spark的可能性。

Pig概述

Apache Pig是Yahoo!为了让研究人员和工程师能够更简单处理、分析和挖掘大数据而发明的。从数据访问的角度来看,可以把YARN当成大数据的操作系统,那么Pig是各种不同类型的数据应用中不可或缺的一员。



尽管Pig的学习成本比Hive要高一些,但是Pig的优点是表达能力和灵活性更胜一筹。如果说用户使用声明式的Hive Hql表达的只是想要什么数据,那么用户使用过程式的Pig Lation,通过一连串的语句组合,能够充分控制数据分析的整个流程。

Pig整体流程



名词解释

名词

解释

备注

Pig Latin

Pig的数据流处理语言

 

Loader/Store

Pig用于加载和存储数据

 

Schema

加载数据时指定的数据格式

Pig的数据类型分为标量和复杂类型,标量基本和Java基本数据类型一致,复杂类型包括Tuple(元组)、Map和Bag(元组的无序集合)

Relation

Pig操作的数据集合

即元组的集合,或者说就是一个Bag(更精确来说外部Bag,因为存在嵌套的内部Bag)

Logical plan

逻辑执行计划

 

Physical plan

物理执行计划

 

Optimizer

优化器

基于规则的逻辑优化器

DAG

Directed Acyclic Graph有向无环图

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  pig 大数据 hadoop spark