Pig系统分析(1)-概述
2014-04-21 17:13
197 查看
本系列文章分析Pig运行主线流程,目的是借鉴Pig Latin on
Hadoop,探索(类)Pig Latin on
Spark的可能性。
尽管Pig的学习成本比Hive要高一些,但是Pig的优点是表达能力和灵活性更胜一筹。如果说用户使用声明式的Hive Hql表达的只是想要什么数据,那么用户使用过程式的Pig Lation,通过一连串的语句组合,能够充分控制数据分析的整个流程。
Hadoop,探索(类)Pig Latin on
Spark的可能性。
Pig概述
Apache Pig是Yahoo!为了让研究人员和工程师能够更简单处理、分析和挖掘大数据而发明的。从数据访问的角度来看,可以把YARN当成大数据的操作系统,那么Pig是各种不同类型的数据应用中不可或缺的一员。尽管Pig的学习成本比Hive要高一些,但是Pig的优点是表达能力和灵活性更胜一筹。如果说用户使用声明式的Hive Hql表达的只是想要什么数据,那么用户使用过程式的Pig Lation,通过一连串的语句组合,能够充分控制数据分析的整个流程。
Pig整体流程
名词解释
名词 | 解释 | 备注 |
Pig Latin | Pig的数据流处理语言 | |
Loader/Store | Pig用于加载和存储数据 | |
Schema | 加载数据时指定的数据格式 | Pig的数据类型分为标量和复杂类型,标量基本和Java基本数据类型一致,复杂类型包括Tuple(元组)、Map和Bag(元组的无序集合) |
Relation | Pig操作的数据集合 | 即元组的集合,或者说就是一个Bag(更精确来说外部Bag,因为存在嵌套的内部Bag) |
Logical plan | 逻辑执行计划 | |
Physical plan | 物理执行计划 | |
Optimizer | 优化器 | 基于规则的逻辑优化器 |
DAG | Directed Acyclic Graph有向无环图 | |
相关文章推荐
- AMR音频编码器概述及文件格式分析
- 【技术类】【且听我说“镶嵌数据集”】概述篇:影像管理的内容有哪些
- 《网络协议》TCP 与 UDP 协议基本概述
- 第一章 概述
- 基于R-CNN的多尺度改进方法概述
- EMC Documentum 组件概述
- 《金融理财》第一章:金融与个人理财概述 学习笔记
- MVC框架概述
- Jsoup代码解读之一-概述
- Java程序设计环境概述
- 最全的design pattern 概述
- ios:KVC的概述与使用
- 阿里云RDS文档概述——参数设置
- 分布式文件系统:概述(1)
- 多线程-线程池的概述和使用
- 《C现代方法》第一章:C语言概述(一)
- Oracle Buffer-cache (数据高速缓存)作用概述
- TCP/IP详解(卷2实现)学习笔记(一)udp的socket通信过程底层实现概述(1)
- OpenCL概述 续篇
- Java网络编程概述