您的位置:首页 > 其它

CDH学习记录

2015-11-05 18:05 417 查看
本文简要概括Cloudera的用户体验指南中各章节内容:

1. 安装

两种方式体验Cloudera产品

+ 在线体验(Cloudera Live)

+ 本地虚拟机安装(QuickStart VM)

2. 场景一:导入并查询关系数据

通过sqoop命令把存在于mysql数据库中的数据在内部以mapreduce任务的方式导入到HDFS中,文件格式为Apache Parquet(为hadoop中的分析型应用设计的数据格式),随后创建Impala/Apache Hive表。

登录Hue可以在浏览器中通过Impala对数据进行检索,Impala中可以用标准SQL语句,和在关系数据库中没有区别。

3. 场景二:批量导入文件数据

通过”CREATE EXTERNAL TABLE”导入网站访问日志数据到HIVE中,然后在Impala中用SQL进行产品的访问排行。

4. 场景三:分析日志数据

利用Apache solr建立日志索引配置文件

利用Apache Flume整合日志文件以及Morphline中定义的日志文件转换规则

在Hue中高效查询日志数据
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  cloudera