Hadoop interview
2016-05-01 23:45
120 查看
目前也面试了几家公司hadoop工程师的职位,总结一下面试题,以供参考。
一、Hadoop基础:
1、 hadoop读写文件的过程?
2、 hadoop集群可以从哪几个方面优化?块的大小怎么设置?槽位怎么设置?
3、 mapreduce程序的执行过程是怎么样的?
4、 mapreduce程序中join和group
by是怎么实现的?
5、 Hive语句可以从哪几个方面优化?优化后效率怎么样?
二、项目方面:
1、 做过什么项目,整体流程是怎么样的,处理什么数据,对数据怎么分析处理?
2、 hadoop集群是用在什么方面的,有多少个节点?
3、 项目的实施和维护过程中出现过什么问题,怎么解决的?
转载 :http://blog.sina.com.cn/s/blog_ac9e44210101ogz0.html
常见的一些基础面试题:
1、hadoop运转的原理?
2、mapreduce的原理?
3、HDFS存储的机制?
4、举一个简略的比方阐明mapreduce是怎么来运转的 ?
5、面试的人给你出一些疑问,让你用mapreduce来完成?
比方:如今有10个文件夹,每个文件夹都有1000000个url.如今让你找出top1000000url。
6、hadoop中Combiner的效果?
解答:
1.hadoop即是mapreduce的进程,服务器上的一个目录节点加上多个数据节点,将程序传递到各个节点,再节点上进行计算。
2.mapreduce即是将数据存储到不一样的节点上,用map方法对应办理,在各个节点上进行计算,最后由reduce进行合并。
3.java程序和namenode合作,把数据存放在不一样的数据节点上.
4.怎么运转用图来表明最好了。图无法画。谷歌下。
5.不思考歪斜,功能,运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算个url的sum,
下一个job map顶用url作key,运用sum作二次排序,reduce中取top10000000
第二种方法,建hive表 A,挂分区channel,每个文件夹是一个分区.
select x.url,x.c from(select url,count(1) as c from A where channel ='' group by url)x order by x.c desc limie 1000000;
6 combiner也是一个reduce,它可以削减map到reudce的数据传输,进步shuff速度。
牢记平均值不要用。需求输入=map的输出,输出=reduce的输入。
一、Hadoop基础:
1、 hadoop读写文件的过程?
2、 hadoop集群可以从哪几个方面优化?块的大小怎么设置?槽位怎么设置?
3、 mapreduce程序的执行过程是怎么样的?
4、 mapreduce程序中join和group
by是怎么实现的?
5、 Hive语句可以从哪几个方面优化?优化后效率怎么样?
二、项目方面:
1、 做过什么项目,整体流程是怎么样的,处理什么数据,对数据怎么分析处理?
2、 hadoop集群是用在什么方面的,有多少个节点?
3、 项目的实施和维护过程中出现过什么问题,怎么解决的?
转载 :http://blog.sina.com.cn/s/blog_ac9e44210101ogz0.html
常见的一些基础面试题:
1、hadoop运转的原理?
2、mapreduce的原理?
3、HDFS存储的机制?
4、举一个简略的比方阐明mapreduce是怎么来运转的 ?
5、面试的人给你出一些疑问,让你用mapreduce来完成?
比方:如今有10个文件夹,每个文件夹都有1000000个url.如今让你找出top1000000url。
6、hadoop中Combiner的效果?
解答:
1.hadoop即是mapreduce的进程,服务器上的一个目录节点加上多个数据节点,将程序传递到各个节点,再节点上进行计算。
2.mapreduce即是将数据存储到不一样的节点上,用map方法对应办理,在各个节点上进行计算,最后由reduce进行合并。
3.java程序和namenode合作,把数据存放在不一样的数据节点上.
4.怎么运转用图来表明最好了。图无法画。谷歌下。
5.不思考歪斜,功能,运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算个url的sum,
下一个job map顶用url作key,运用sum作二次排序,reduce中取top10000000
第二种方法,建hive表 A,挂分区channel,每个文件夹是一个分区.
select x.url,x.c from(select url,count(1) as c from A where channel ='' group by url)x order by x.c desc limie 1000000;
6 combiner也是一个reduce,它可以削减map到reudce的数据传输,进步shuff速度。
牢记平均值不要用。需求输入=map的输出,输出=reduce的输入。
相关文章推荐
- Atitit linux获取项目运行环境版本
- Atitit. 查找linux 项目源码位置
- Atitit. 查找linux 项目源码位置
- Atitit. 查找linux 项目源码位置
- CentOS 6 安装vsftpd
- Linux中的常见配置文件
- Maven的基本应用---tomcat自启动与热部署
- Maple OpenMaple (API) 开发系列-3.0 案例
- Hadoop2.*源码分析之Job任务提交与执行
- Maven 集成Tomcat7插件
- 64 bit Linux下程序开发注意事项
- opencv异常提示之 (channels() == CV_MAT_CN(dtype)) in copyTo (暂未解决,提供源码)
- CentOS6.5系统挂载NTFS分区的移动硬盘
- SM2算法第六篇:Linux Socket编程(不限于Linux)
- Linux内核分析课程总结
- CentOS6.5系统挂载NTFS分区的移动硬盘
- 【BZOJ4582】【Usaco2016 open】Diamond Collector 贪心
- nginx详细配置说明
- Ubuntu12.04编译openwrt过程中遇到的一些问题及处理方法
- linux错误:root@localhost's password