您的位置：首页 > 大数据

Pig系统分析(1)-概述

2014-04-21 17:13 197 查看

本系列文章分析Pig运行主线流程，目的是借鉴Pig Latin on
Hadoop，探索(类)Pig Latin on
Spark的可能性。

Pig概述

Apache Pig是Yahoo!为了让研究人员和工程师能够更简单处理、分析和挖掘大数据而发明的。从数据访问的角度来看，可以把YARN当成大数据的操作系统，那么Pig是各种不同类型的数据应用中不可或缺的一员。

尽管Pig的学习成本比Hive要高一些，但是Pig的优点是表达能力和灵活性更胜一筹。如果说用户使用声明式的Hive Hql表达的只是想要什么数据，那么用户使用过程式的Pig Lation，通过一连串的语句组合，能够充分控制数据分析的整个流程。

名词	解释	备注
Pig Latin	Pig的数据流处理语言
Loader/Store	Pig用于加载和存储数据
Schema	加载数据时指定的数据格式	Pig的数据类型分为标量和复杂类型，标量基本和Java基本数据类型一致，复杂类型包括Tuple（元组）、Map和Bag（元组的无序集合）
Relation	Pig操作的数据集合	即元组的集合，或者说就是一个Bag（更精确来说外部Bag，因为存在嵌套的内部Bag）
Logical plan	逻辑执行计划
Physical plan	物理执行计划
Optimizer	优化器	基于规则的逻辑优化器
DAG	Directed Acyclic Graph有向无环图

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： pig 大数据 hadoop spark

相关文章推荐

新的分享

章节导航