您的位置：首页 > 大数据

Hive应用实例：WordCount

2016-10-23 11:26 357 查看

出自《大数据原理与应用》一书。

词频统计任务要求：

首先，需要创建一个需要分析的输入数据文件

然后，编写HiveQL语句实现WordCount算法

具体步骤如下：

（1）创建input目录，其中input为输入目录。命令如下：

$ cd /home/hadoop
$ mkdir input

（2）在input文件夹中创建两个测试文件file1.txt和file2.txt，命令如下：

$ cd  /home/hadoop/input
$ echo "hello world" > file1.txt
$ echo "hello hadoop" > file2.txt

（3）进入hive命令行界面，编写HiveQL语句实现WordCount算法，命令如下：

$ hive
hive> create table docs(line string);
hive> load data inpath 'input' overwrite into table docs;
hive>create table word_count as
select word, count(1) as count from
(select explode(split(line,' '))as word from docs) w
group by word
order by word;

执行完成后，用select语句查看运行结果如下：

hive> select * from word_count;
OK
hadoop  1
hello   2
world   1
Time taken: 0.111 seconds, Fetched: 3 row(s)
hive>

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hive 大数据

相关文章推荐

新的分享

章节导航