您的位置：首页 > 大数据 > Hadoop

Sqoop--关系型数据库跟hdfs数据传输工具

2015-10-09 16:48 671 查看

1.什么是Sqoop

Sqoop即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，充分利用MapReduce并行特点以批处理的方式加快数据传输，发展至今主要演化了二大版本，Sqoop1和Sqoop2。

Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁，支持关系型数据库和hive、hdfs，hbase之间数据的相互导入，可以使用全表导入和增量导入。

那么为什么选择Sqoop呢？

高效可控的利用资源，任务并行度，超时时间。数据类型映射与转化，可自动进行，用户也可自定义支持多种主流数据库，MySQL,Oracle，SQL Server，DB2等等

2.Sqoop1和Sqoop2对比的异同之处

两个不同的版本，完全不兼容版本号划分区别，Apache版本：1.4.x(Sqoop1); 1.99.x(Sqoop2) CDH版本 : Sqoop-1.4.3-cdh4(Sqoop1) ; Sqoop2-1.99.2-cdh4.5.0 (Sqoop2)Sqoop2比Sqoop1的改进引入Sqoop server，集中化管理connector等多种访问方式：CLI,Web UI，REST API 引入基于角色的安全机制

3.Sqoop1与Sqoop2的架构图

Sqoop架构图1

Sqoop架构图2

4.Sqoop1与Sqoop2的优缺点

比较	Sqoop1	Sqoop2
架构	仅仅使用一个Sqoop客户端	引入了Sqoop server集中化管理connector，以及rest api，web，UI，并引入权限安全机制
部署	部署简单，安装需要root权限，connector必须符合JDBC模型	架构稍复杂，配置部署更繁琐
使用	命令行方式容易出错，格式紧耦合，无法支持所有数据类型，安全机制不够完善，例如密码暴漏	多种交互方式，命令行，web UI，rest API，conncetor集中化管理，所有的链接安装在Sqoop server上，完善权限管理机制，connector规范化，仅仅负责数据的读写

5.Sqoop1的安装部署

5.0 安装环境

hadoop：hadoop-2.3.0-cdh5.1.2

sqoop：sqoop-1.4.4-cdh5.1.2

5.1 下载安装包及解压

tar -zxvf sqoop-1.4.4-cdh5.1.2.tar.gz

ln -s sqoop-1.4.4-cdh5.1.2 sqoop

5.2 配置环境变量和配置文件

<span style="font-size:18px;">cd sqoop/conf/

cat  sqoop-env-template.sh  >> sqoop-env.sh

vi sqoop-env.sh </span>

在sqoop-env.sh中添加如下代码

<span style="font-size:18px;"># Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# included in all the hadoop scripts with source command
# should not be executable directly
# also should not be passed any arguments, since we need original $*

# Set Hadoop-specific environment variables here.

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/home/hadoop/hadoop

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/home/hadoop/hadoop

#set the path to where bin/hbase is available
export HBASE_HOME=/home/hadoop/hbase

#Set the path to where bin/hive is available
export HIVE_HOME=/home/hadoop/hive

#Set the path for where zookeper config dir is
export ZOOCFGDIR=/home/hadoop/zookeeper
</span>

该配置文件中只有HADOOP_COMMON_HOME的配置是必须的另外关于hbase和hive的配置如果用到需要配置不用的话就不用配置

5.3 添加需要的jar包到lib下面

这里的jar包指的是连接关系型数据库的jar 比如mysql oracle 这些jar包是需要自己添加到lib目录下面去的

<span style="font-size:18px;"> cp  ~/hive/lib/mysql-connector-java-5.1.30.jar   ~/sqoop/lib/</span>

5.4 添加环境变量

vi ~/.profile

添加如下内容

<span style="font-size:18px;">export SQOOP_HOME=/home/hadoop/sqoop

export SBT_HOME=/home/hadoop/sbt

export PATH=$PATH:$SBT_HOME/bin:$SQOOP_HOME/bin
export CLASSPATH=$CLASSPATH:$SQOOP_HOME/lib
</span>

source ~/.profile使配置文件生效

***************************************************************************************************

以下是来自sqoop官方的教程：

如果我们要分析我们储存在RDMS里面的数据的话，理论上可以使用map reduce任务，首先创建map 任务去读取数据，然后由reduce完成数据的统计，计算。但是这样会给RDMS系统造成DDoS攻击。因此不要这么做。最好的做法是把数据下载到HDFS，HIVE，HBse等hadoop的数据仓库里面。

sqoop是Cloudera 的一个开源的工具，它可以：

载入一个表
载入整个数据库
有选择的载入某些数据
有选择的载入某些表
把某些数据剔除掉

启动sqoop

$ sqoop tool-name [tool-arguments] tool-name 就是操作名字，比如import export, tool-arguments 是该操作的参数，是可选的。 $ sqoop help 可以查询所有支持的操作

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航