Sqoop--关系型数据库跟hdfs数据传输工具
1.什么是Sqoop
Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,Sqoop1和Sqoop2。
Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive、hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入。
那么为什么选择Sqoop呢?
高效可控的利用资源,任务并行度,超时时间。 数据类型映射与转化,可自动进行,用户也可自定义 支持多种主流数据库,MySQL,Oracle,SQL Server,DB2等等
2.Sqoop1和Sqoop2对比的异同之处
两个不同的版本,完全不兼容 版本号划分区别,Apache版本:1.4.x(Sqoop1); 1.99.x(Sqoop2) CDH版本 : Sqoop-1.4.3-cdh4(Sqoop1) ; Sqoop2-1.99.2-cdh4.5.0 (Sqoop2)Sqoop2比Sqoop1的改进 引入Sqoop server,集中化管理connector等 多种访问方式:CLI,Web UI,REST API 引入基于角色的安全机制
3.Sqoop1与Sqoop2的架构图
Sqoop架构图1
Sqoop架构图2
4.Sqoop1与Sqoop2的优缺点
比较 |
Sqoop1 |
Sqoop2 |
架构 |
仅仅使用一个Sqoop客户端 |
引入了Sqoop server集中化管理connector,以及rest api,web,UI,并引入权限安全机制 |
部署 |
部署简单,安装需要root权限,connector必须符合JDBC模型 |
架构稍复杂,配置部署更繁琐 |
使用 |
命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全机制不够完善,例如密码暴漏 |
多种交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的链接安装在Sqoop server上,完善权限管理机制,connector规范化,仅仅负责数据的读写 |
5.Sqoop1的安装部署
5.0 安装环境
hadoop:hadoop-2.3.0-cdh5.1.2
sqoop:sqoop-1.4.4-cdh5.1.2
5.1 下载安装包及解压
tar -zxvf sqoop-1.4.4-cdh5.1.2.tar.gz
ln -s sqoop-1.4.4-cdh5.1.2 sqoop
5.2 配置环境变量和配置文件
<span style="font-size:18px;">cd sqoop/conf/ cat sqoop-env-template.sh >> sqoop-env.sh vi sqoop-env.sh </span>
在sqoop-env.sh中添加如下代码
<span style="font-size:18px;"># Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information regarding copyright ownership. # The ASF licenses this file to You under the Apache License, Version 2.0 # (the "License"); you may not use this file except in compliance with # the License. You may obtain a copy of the License at # # http://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. # See the License for the specific language governing permissions and # limitations under the License. # included in all the hadoop scripts with source command # should not be executable directly # also should not be passed any arguments, since we need original $* # Set Hadoop-specific environment variables here. #Set path to where bin/hadoop is available export HADOOP_COMMON_HOME=/home/hadoop/hadoop #Set path to where hadoop-*-core.jar is available export HADOOP_MAPRED_HOME=/home/hadoop/hadoop #set the path to where bin/hbase is available export HBASE_HOME=/home/hadoop/hbase #Set the path to where bin/hive is available export HIVE_HOME=/home/hadoop/hive #Set the path for where zookeper config dir is export ZOOCFGDIR=/home/hadoop/zookeeper </span>
该配置文件中只有HADOOP_COMMON_HOME的配置是必须的 另外关于hbase和hive的配置 如果用到需要配置 不用的话就不用配置
5.3 添加需要的jar包到lib下面
这里的jar包指的是连接关系型数据库的jar 比如mysql oracle 这些jar包是需要自己添加到lib目录下面去的
<span style="font-size:18px;"> cp ~/hive/lib/mysql-connector-java-5.1.30.jar ~/sqoop/lib/</span>
5.4 添加环境变量
vi ~/.profile
添加如下内容
<span style="font-size:18px;">export SQOOP_HOME=/home/hadoop/sqoop export SBT_HOME=/home/hadoop/sbt export PATH=$PATH:$SBT_HOME/bin:$SQOOP_HOME/bin export CLASSPATH=$CLASSPATH:$SQOOP_HOME/lib </span>
source ~/.profile使配置文件生效
***************************************************************************************************
以下是来自sqoop官方的教程:
如果我们要分析我们储存在RDMS里面的数据的话,理论上可以使用map reduce任务,首先创建map 任务去读取数据,然后由reduce完成数据的统计,计算。但是这样会给RDMS系统造成DDoS攻击。因此不要这么做。 最好的做法是把数据下载到HDFS,HIVE,HBse等hadoop的数据仓库里面。
sqoop是Cloudera 的一个开源的工具,它可以:
- 载入一个表
- 载入整个数据库
- 有选择的载入某些数据
- 有选择的载入某些表
- 把某些数据剔除掉
$ sqoop tool-name [tool-arguments] tool-name 就是操作名字, 比如import export, tool-arguments 是该操作的参数,是可选的。 $ sqoop help 可以查询所有支持的操作
- sqoop工具介绍(hdfs与关系型数据库进行数据导入导出)
- sqoop从关系型数据库导数据到hdfs和hbase上
- Sqoop2入门之导入关系型数据库数据到HDFS上
- 用Sqoop把数据从HDFS导入到关系型数据库
- Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)
- Sqoop实现关系型数据库到hive的数据传输
- 使用sqoop实现关系型数据库、HDFS、Hive之间数据的导入导出
- 使用Sqoop将数据从RDBMS(关系型数据库) 到hdfs和Hive的导入导出
- Sqoop2——导入关系型数据库数据到HDFS上
- Hadoop数据工具sqoop,导入HDFS,HIVE,HBASE,导出到oracle
- sqoop从关系型数据库导数据到hbase
- Sqoop在Hadoop和关系型数据库之间的数据转移
- Hadoop数据传输工具sqoop(四)Java远程调用Sqoop进行数据传输
- sh调取sqoop脚本每天增量跑数据 从hadoop到关系型数据库
- sqoop导入关系型数据库的数据至hive
- 利用SQOOP将数据从数据库导入到HDFS
- Hadoop数据传输工具sqoop
- 利用SQOOP将数据从数据库导入到HDFS
- 利用SQOOP将数据从数据库导入到HDFS
- 利用SQOOP将数据从数据库导入到HDFS