【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96,并自己主动生成组合行键
2017-05-27 18:58
381 查看
目的:
使用Sqoop将Oracle中的数据导入到HBase中,并自己主动生成组合行键!
环境:
Hadoop2.2.0
Hbase0.96
sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz
Oracle11g
jdk1.7
Ubuntu14 Server
这里关于环境吐槽一句:
最新版本号的Sqoop1.99.3功能太弱。仅仅支持导入数据到HDFS,没有别的不论什么选项,太土了。(如有不允许见欢迎讨论给出解决方式)
命令:
sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username ZHAOBIAO --P --table CMS_NEWS_0625 --hbase-create-table --hbase-table 147patents --column-family patentinfo
--split-by CREATE_TIME --hbase-row-key "CREATE_TIME,PUBLISH_TIME,ID,TITLE"
数据源相关參数说明: --connect:数据库连接串
--username:用户名
--P:交互式输入password --table:表名 -m:并行运行sqoop导入程序的map task的数量,在不指定的情况下默认启动4个map --split-by:并行导入过程中。各个map task依据哪个字段来划分数据段,该參数最好指定一个能相对均匀划分数据的字段,比方创建时间、递增的ID
HBase相关參数说明: --hbase-table:hbase中接收数据的表名 --hbase-create-table:假设指定的接收数据表在hbase中不存在,则新建表
--column-family:列族名称,全部源表的字段都进入该列族
--hbase-row-key:假设不指定则採用源表的key作为hbase的row key。能够指定一个字段作为row key。或者指定组合行键。当指定组合行键时,用双引號包括多个字段,各字段用逗号分隔 -D sqoop.hbase.add.row.key :是否将rowkey相关字段写入列族中,默觉得false,默认情况下你将在列族中看不到不论什么row key中的字段。
注意几个坑: 1.Oracle的表名必须大写(--table CMS_NEWS_0625) 。 2.用户名必须大写字母( --username ZHAOBIAO); 3.组合行键參数中的字段名都必须大写(--hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"); 4.作为组合行键的几个字段都不能有null值,否则会报错,请运行该语句前先确认; 5.sqoop不会导入值为null的字段。 异常解决 过程中遇到报错: Error: java.io.IOException: Could not insert row with null value for row-key column: OPERATE_TIME at org.apache.sqoop.hbase.ToStringPutTransformer.getPutCommand(ToStringPutTransformer.java:125) at org.apache.sqoop.hbase.HBasePutProcessor.accept(HBasePutProcessor.java:142) at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:128) at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:92) at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:634) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112) at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:38) at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:31) at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145) at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)
原因1: --hbase-row-key "create_time,publish_time,operate_time,title" 字段名小写了,须要将其改动为大写 --hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"
原因2:
该字段在原表中的确存在Null值。 补充: Map-Reduce Framework Map input records=639529 Map output records=639529
166251 row(s) in 1006.7010 seconds
数据源相关參数说明: --connect:数据库连接串
--username:用户名
--P:交互式输入password --table:表名 -m:并行运行sqoop导入程序的map task的数量,在不指定的情况下默认启动4个map --split-by:并行导入过程中。各个map task依据哪个字段来划分数据段,该參数最好指定一个能相对均匀划分数据的字段,比方创建时间、递增的ID
HBase相关參数说明: --hbase-table:hbase中接收数据的表名 --hbase-create-table:假设指定的接收数据表在hbase中不存在,则新建表
--column-family:列族名称,全部源表的字段都进入该列族
--hbase-row-key:假设不指定则採用源表的key作为hbase的row key。能够指定一个字段作为row key。或者指定组合行键。当指定组合行键时,用双引號包括多个字段,各字段用逗号分隔 -D sqoop.hbase.add.row.key :是否将rowkey相关字段写入列族中,默觉得false,默认情况下你将在列族中看不到不论什么row key中的字段。
注意。该參数必须放在import之后。
注意几个坑: 1.Oracle的表名必须大写(--table CMS_NEWS_0625) 。 2.用户名必须大写字母( --username ZHAOBIAO); 3.组合行键參数中的字段名都必须大写(--hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"); 4.作为组合行键的几个字段都不能有null值,否则会报错,请运行该语句前先确认; 5.sqoop不会导入值为null的字段。 异常解决 过程中遇到报错: Error: java.io.IOException: Could not insert row with null value for row-key column: OPERATE_TIME at org.apache.sqoop.hbase.ToStringPutTransformer.getPutCommand(ToStringPutTransformer.java:125) at org.apache.sqoop.hbase.HBasePutProcessor.accept(HBasePutProcessor.java:142) at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:128) at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:92) at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:634) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112) at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:38) at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:31) at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145) at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)
原因1: --hbase-row-key "create_time,publish_time,operate_time,title" 字段名小写了,须要将其改动为大写 --hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"
原因2:
该字段在原表中的确存在Null值。 补充: Map-Reduce Framework Map input records=639529 Map output records=639529
166251 row(s) in 1006.7010 seconds
相关文章推荐
- 【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96,并自动生成组合行键
- sqoop-1.4.4导入导出mysql数据到hadoop2.2.0 HDSF集群
- 使用Sqoop-1.4.4将Sqlserver2008中数据导入到Hbase上
- 【心血之作】linux虚拟机下安装配置Hadoop(完全分布式)生态环境(hadoop2.2.0,HBase0.98,Hive0.13(连接oracle),sqoop1.4.4(连接oracle)
- Sqoop1.4.4使用SQL语句形式将MySQL数据库表中数据导入到HDFS中
- 【甘道夫】Ubuntu14 server + Hadoop2.2.0环境下Sqoop1.99.3部署记录
- Sqoop1.4.4使用增量导入模式将MySQL数据库中数据导入到HDFS中
- Sqoop_详细总结 使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出
- 使用Sqoop1.4.4将MySQL数据库表中数据导入到HDFS中
- hadoop 集群环境Sqoop 将数据导入mysql问题 many connection errors; unblock with 'mysqladmin flush-hosts'
- Hadoop数据工具sqoop,导入HDFS,HIVE,HBASE,导出到oracle
- 使用sqoop将mysql数据导入到hadoop
- 使用sqoop导入postgresql数据到Hbase
- 使用sqoop将MySQL数据库中的数据导入Hbase
- HBase Shell 操作命令&&使用Sqoop将数据导入HBase
- 使用sqoop将MySQL数据库中的数据导入Hbase (转)
- 使用sqoop将MySQL数据库中的数据导入Hbase
- [hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入HBASE
- 使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出
- 使用sqoop将MySQL数据库中的数据导入Hbase