验证自身水平的hadoop面试题
2016-05-03 21:52
357 查看
[align=left]1 使用Hive或者自定义MR实现如下逻辑[/align]
[align=left]product_no lac_id moment start_time user_id county_id staytime city_id[/align]
[align=left]13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571 282 571[/align]
[align=left]13429100082 22540 8 2013-03-11 08:58:20.152622488 571 571 270 571[/align]
[align=left]13429100082 22691 8 2013-03-11 08:56:37.149593624 571 571 103 571[/align]
[align=left]13429100087 22705 8 2013-03-11 08:56:51.139539816 571 571 220 571[/align]
[align=left]13429100087 22540 8 2013-03-11 08:55:45.150276800 571 571 66 571[/align]
[align=left]13429100082 22540 8 2013-03-11 08:55:38.140225200 571 571 133 571[/align]
[align=left]13429100140 26642 9 2013-03-11 09:02:19.151754088 571 571 18 571[/align]
[align=left]13429100082 22691 8 2013-03-11 08:57:32.151754088 571 571 287 571[/align]
[align=left]13429100189 22558 8 2013-03-11 08:56:24.139539816 571 571 48 571[/align]
[align=left]13429100349 22503 8 2013-03-11 08:54:30.152622440 571 571 211 571[/align]
[align=left]字段解释:[/align]
[align=left]product_no:用户手机号;[/align]
[align=left]lac_id:用户所在基站;[/align]
[align=left]start_time:用户在此基站的开始时间;[/align]
[align=left]staytime:用户在此基站的逗留时间。[/align]
[align=left]需求描述:[/align]
[align=left]根据lac_id和start_time知道用户当时的位置,根据staytime知道用户各个基站的逗留时长。根据轨迹合并连续基站的staytime。[/align]
[align=left]最终得到每一个用户按时间排序在每一个基站驻留时长[/align]
[align=left]期望输出举例:[/align]
[align=left]13429100082 22540 8 2013-03-11 08:58:20.152622488 571 571 270 571[/align]
[align=left]13429100082 22691 8 2013-03-11 08:56:37.149593624 571 571 390 571[/align]
[align=left]13429100082 22540 8 2013-03-11 08:55:38.140225200 571 571 133 571[/align]
[align=left]13429100087 22705 8 2013-03-11 08:56:51.139539816 571 571 220 571[/align]
[align=left]13429100087 22540 8 2013-03-11 08:55:45.150276800 571 571 66 571[/align]
[align=left]2 Linux脚本能力考察[/align]
[align=left]2.1 请随意使用各种类型的脚本语言实现:批量将指定目录下的所有文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoop[/align]
[align=left]2.2 假设有10台主机,H1到H10,在开启SSH互信的情况下,编写一个或多个脚本实现在所有的远程主机上执行脚本的功能[/align]
[align=left]例如:runRemoteCmd.sh "ls -l"[/align]
[align=left]期望结果:[/align]
[align=left]H1:[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]H2:[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]H3:[/align]
[align=left]...[/align]
[align=left]3 Hadoop基础知识与问题分析的能力 [/align]
[align=left]3.1 描述一下hadoop中,有哪些地方使用了缓存机制,作用分别是什么[/align]
[align=left]3.2 请描述https://issues.apache.org/jira/browse/HDFS-2379说的是什么问题,最终解决的思路是什么?[/align]
[align=left]4 MapReduce开发能力 [/align]
[align=left]请参照wordcount实现一个自己的map reduce,需求为:[/align]
[align=left] a 输入文件格式:[/align]
[align=left] xxx,xxx,xxx,xxx,xxx,xxx,xxx[/align]
[align=left] b 输出文件格式:[/align]
[align=left] xxx,20[/align]
[align=left] xxx,30[/align]
[align=left] xxx.40[/align]
[align=left] c 功能:根据命令行参数统计输入文件中指定关键字出现的次数,并展示出来[/align]
[align=left] 例如:hadoop jar xxxxx.jar keywordcount xxx,xxx,xxx,xxx(四个关键字)[/align]
[align=left]5 MapReduce优化[/align]
[align=left]请根据第五题中的程序, 提出如何优化MR程序运行速度的思路[/align]
[align=left]6 Linux操作系统知识考察[/align]
[align=left]请列举曾经修改过的/etc下的配置文件,并说明修改要解决的问题?[/align]
[align=left]7 Java开发能力[/align]
[align=left]7.1 写代码实现1G大小的文本文件,行分隔符为\x01\x02,统计一下该文件中的总行数,要求注意边界情况的处理[/align]
[align=left]7.2 请描述一下在开发中如何对上面的程序进行性能分析,对性能进行优化的过程[/align]
[align=left]product_no lac_id moment start_time user_id county_id staytime city_id[/align]
[align=left]13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571 282 571[/align]
[align=left]13429100082 22540 8 2013-03-11 08:58:20.152622488 571 571 270 571[/align]
[align=left]13429100082 22691 8 2013-03-11 08:56:37.149593624 571 571 103 571[/align]
[align=left]13429100087 22705 8 2013-03-11 08:56:51.139539816 571 571 220 571[/align]
[align=left]13429100087 22540 8 2013-03-11 08:55:45.150276800 571 571 66 571[/align]
[align=left]13429100082 22540 8 2013-03-11 08:55:38.140225200 571 571 133 571[/align]
[align=left]13429100140 26642 9 2013-03-11 09:02:19.151754088 571 571 18 571[/align]
[align=left]13429100082 22691 8 2013-03-11 08:57:32.151754088 571 571 287 571[/align]
[align=left]13429100189 22558 8 2013-03-11 08:56:24.139539816 571 571 48 571[/align]
[align=left]13429100349 22503 8 2013-03-11 08:54:30.152622440 571 571 211 571[/align]
[align=left]字段解释:[/align]
[align=left]product_no:用户手机号;[/align]
[align=left]lac_id:用户所在基站;[/align]
[align=left]start_time:用户在此基站的开始时间;[/align]
[align=left]staytime:用户在此基站的逗留时间。[/align]
[align=left]需求描述:[/align]
[align=left]根据lac_id和start_time知道用户当时的位置,根据staytime知道用户各个基站的逗留时长。根据轨迹合并连续基站的staytime。[/align]
[align=left]最终得到每一个用户按时间排序在每一个基站驻留时长[/align]
[align=left]期望输出举例:[/align]
[align=left]13429100082 22540 8 2013-03-11 08:58:20.152622488 571 571 270 571[/align]
[align=left]13429100082 22691 8 2013-03-11 08:56:37.149593624 571 571 390 571[/align]
[align=left]13429100082 22540 8 2013-03-11 08:55:38.140225200 571 571 133 571[/align]
[align=left]13429100087 22705 8 2013-03-11 08:56:51.139539816 571 571 220 571[/align]
[align=left]13429100087 22540 8 2013-03-11 08:55:45.150276800 571 571 66 571[/align]
[align=left]2 Linux脚本能力考察[/align]
[align=left]2.1 请随意使用各种类型的脚本语言实现:批量将指定目录下的所有文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoop[/align]
[align=left]2.2 假设有10台主机,H1到H10,在开启SSH互信的情况下,编写一个或多个脚本实现在所有的远程主机上执行脚本的功能[/align]
[align=left]例如:runRemoteCmd.sh "ls -l"[/align]
[align=left]期望结果:[/align]
[align=left]H1:[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]H2:[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]H3:[/align]
[align=left]...[/align]
[align=left]3 Hadoop基础知识与问题分析的能力 [/align]
[align=left]3.1 描述一下hadoop中,有哪些地方使用了缓存机制,作用分别是什么[/align]
[align=left]3.2 请描述https://issues.apache.org/jira/browse/HDFS-2379说的是什么问题,最终解决的思路是什么?[/align]
[align=left]4 MapReduce开发能力 [/align]
[align=left]请参照wordcount实现一个自己的map reduce,需求为:[/align]
[align=left] a 输入文件格式:[/align]
[align=left] xxx,xxx,xxx,xxx,xxx,xxx,xxx[/align]
[align=left] b 输出文件格式:[/align]
[align=left] xxx,20[/align]
[align=left] xxx,30[/align]
[align=left] xxx.40[/align]
[align=left] c 功能:根据命令行参数统计输入文件中指定关键字出现的次数,并展示出来[/align]
[align=left] 例如:hadoop jar xxxxx.jar keywordcount xxx,xxx,xxx,xxx(四个关键字)[/align]
[align=left]5 MapReduce优化[/align]
[align=left]请根据第五题中的程序, 提出如何优化MR程序运行速度的思路[/align]
[align=left]6 Linux操作系统知识考察[/align]
[align=left]请列举曾经修改过的/etc下的配置文件,并说明修改要解决的问题?[/align]
[align=left]7 Java开发能力[/align]
[align=left]7.1 写代码实现1G大小的文本文件,行分隔符为\x01\x02,统计一下该文件中的总行数,要求注意边界情况的处理[/align]
[align=left]7.2 请描述一下在开发中如何对上面的程序进行性能分析,对性能进行优化的过程[/align]
相关文章推荐
- 程序员的自我修养-读书笔记(2)
- php面试总结
- 程序员的鄙视链
- 面试之路(21)-链表的倒序实现
- 面试之路(21)-链表的倒序实现
- 面试之路(21)-链表的倒序实现
- 百度网页搜索部_数据挖掘实习生面试
- JAVA多线程和并发基础面试问答
- 硬件工程师-面试笔记0305
- 多线程并发库高级应用 之 使用java5中同步技术的3个面试题
- 搜狐云平台前端实习生面试总结
- 程序员的工作
- 一道题识别优秀的程序员
- 一道题识别不靠谱的程序员
- 《剑指offer》面试3:二维数组查找
- 作为程序员我们应该知道什么
- JAVA多线程和并发基础面试题
- 十道海量数据处理面试题与十个方法大总结(转)
- 面试之路(20)-字符串中空格替换一类问题详解
- 面试之路(20)-字符串中空格替换一类问题详解