您的位置:首页 > 大数据

Hive应用实例:WordCount

2016-10-23 11:26 357 查看
出自《大数据原理与应用》一书。

词频统计任务要求:

首先,需要创建一个需要分析的输入数据文件

然后,编写HiveQL语句实现WordCount算法

具体步骤如下:

(1)创建input目录,其中input为输入目录。命令如下:

$ cd /home/hadoop
$ mkdir input


(2)在input文件夹中创建两个测试文件file1.txt和file2.txt,命令如下:

$ cd  /home/hadoop/input
$ echo "hello world" > file1.txt
$ echo "hello hadoop" > file2.txt


(3)进入hive命令行界面,编写HiveQL语句实现WordCount算法,命令如下:

$ hive
hive> create table docs(line string);
hive> load data inpath 'input' overwrite into table docs;
hive>create table word_count as
select word, count(1) as count from
(select explode(split(line,' '))as word from docs) w
group by word
order by word;






执行完成后,用select语句查看运行结果如下:

hive> select * from word_count;
OK
hadoop  1
hello   2
world   1
Time taken: 0.111 seconds, Fetched: 3 row(s)
hive>
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hive 大数据