您的位置：首页 > 职场人生

验证自身水平的hadoop面试题

2016-05-03 21:52 357 查看

[align=left]1 使用Hive或者自定义MR实现如下逻辑[/align]
[align=left]product_no    lac_id  moment  start_time    user_id county_id    staytime       city_id[/align]
[align=left]13429100031    22554 8    2013-03-11 08:55:19.151754088 571    571    282    571[/align]
[align=left]13429100082    22540 8    2013-03-11 08:58:20.152622488 571    571    270    571[/align]
[align=left]13429100082    22691 8    2013-03-11 08:56:37.149593624 571    571    103    571[/align]
[align=left]13429100087    22705 8    2013-03-11 08:56:51.139539816 571    571    220    571[/align]
[align=left]13429100087    22540 8    2013-03-11 08:55:45.150276800 571    571    66    571[/align]
[align=left]13429100082    22540 8    2013-03-11 08:55:38.140225200 571    571    133    571[/align]
[align=left]13429100140    26642 9    2013-03-11 09:02:19.151754088 571    571    18    571[/align]
[align=left]13429100082    22691 8    2013-03-11 08:57:32.151754088 571    571    287    571[/align]
[align=left]13429100189    22558 8    2013-03-11 08:56:24.139539816 571    571    48    571[/align]
[align=left]13429100349    22503 8    2013-03-11 08:54:30.152622440 571    571    211    571[/align]
[align=left]字段解释：[/align]
[align=left]product_no：用户手机号；[/align]
[align=left]lac_id：用户所在基站；[/align]
[align=left]start_time：用户在此基站的开始时间；[/align]
[align=left]staytime：用户在此基站的逗留时间。[/align]

[align=left]需求描述：[/align]
[align=left]根据lac_id和start_time知道用户当时的位置，根据staytime知道用户各个基站的逗留时长。根据轨迹合并连续基站的staytime。[/align]
[align=left]最终得到每一个用户按时间排序在每一个基站驻留时长[/align]

[align=left]期望输出举例：[/align]
[align=left]13429100082    22540 8    2013-03-11 08:58:20.152622488 571    571    270    571[/align]
[align=left]13429100082    22691 8    2013-03-11 08:56:37.149593624 571    571    390    571[/align]
[align=left]13429100082    22540 8    2013-03-11 08:55:38.140225200 571    571    133    571[/align]
[align=left]13429100087    22705 8    2013-03-11 08:56:51.139539816 571    571    220    571[/align]
[align=left]13429100087    22540 8    2013-03-11 08:55:45.150276800 571    571    66    571[/align]

[align=left]2 Linux脚本能力考察[/align]
[align=left]2.1 请随意使用各种类型的脚本语言实现：批量将指定目录下的所有文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoop[/align]

[align=left]2.2 假设有10台主机，H1到H10，在开启SSH互信的情况下，编写一个或多个脚本实现在所有的远程主机上执行脚本的功能[/align]
[align=left]例如：runRemoteCmd.sh "ls -l"[/align]
[align=left]期望结果：[/align]
[align=left]H1:[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]H2:[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]XXXXXXXX[/align]
[align=left]H3:[/align]
[align=left]...[/align]

[align=left]3 Hadoop基础知识与问题分析的能力 [/align]
[align=left]3.1 描述一下hadoop中，有哪些地方使用了缓存机制，作用分别是什么[/align]

[align=left]3.2 请描述https://issues.apache.org/jira/browse/HDFS-2379说的是什么问题，最终解决的思路是什么？[/align]

[align=left]4 MapReduce开发能力 [/align]
[align=left]请参照wordcount实现一个自己的map reduce，需求为：[/align]
[align=left] a 输入文件格式：[/align]
[align=left]    xxx,xxx,xxx,xxx,xxx,xxx,xxx[/align]
[align=left] b 输出文件格式：[/align]
[align=left]    xxx,20[/align]
[align=left]    xxx,30[/align]
[align=left]    xxx.40[/align]
[align=left] c 功能：根据命令行参数统计输入文件中指定关键字出现的次数，并展示出来[/align]
[align=left]    例如：hadoop jar xxxxx.jar keywordcount xxx,xxx,xxx,xxx(四个关键字）[/align]

[align=left]5 MapReduce优化[/align]
[align=left]请根据第五题中的程序, 提出如何优化MR程序运行速度的思路[/align]

[align=left]6 Linux操作系统知识考察[/align]
[align=left]请列举曾经修改过的/etc下的配置文件，并说明修改要解决的问题？[/align]

[align=left]7 Java开发能力[/align]
[align=left]7.1 写代码实现1G大小的文本文件，行分隔符为\x01\x02,统计一下该文件中的总行数，要求注意边界情况的处理[/align]

[align=left]7.2 请描述一下在开发中如何对上面的程序进行性能分析，对性能进行优化的过程[/align]

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航