Hive数据导入预处理-分隔符处理
2017-07-06 22:12
197 查看
偶尔会遇到需要把本地数据导入到hive的情况,我们知道hive字段之间的默认分隔符是\x01,而导入的数据字段之间经常是使用制表符分隔。为了在数据导入到hive时能够正常识别,我们需要先对数据进行处理。
想到的最常用的工具自然是sed命令,使用sed替换命令可以简单的把文本中的制表符都替换成我们想要的文本。
那么问题来了,\x01是一个特殊字符,直接在sed命令中输入显然是行不通的。通过网上查找资料,知道了\x01这个字符在linux中显示为^A,那么怎么在sed命令中输入这个字符呢?
操作很简单,首先按组合键:ctrl+v,然后再输入对应的字符的组合键,例如要输入^A的话再按:ctrl+A就行了。所以最终的指令为:
想到的最常用的工具自然是sed命令,使用sed替换命令可以简单的把文本中的制表符都替换成我们想要的文本。
那么问题来了,\x01是一个特殊字符,直接在sed命令中输入显然是行不通的。通过网上查找资料,知道了\x01这个字符在linux中显示为^A,那么怎么在sed命令中输入这个字符呢?
操作很简单,首先按组合键:ctrl+v,然后再输入对应的字符的组合键,例如要输入^A的话再按:ctrl+A就行了。所以最终的指令为:
sed -i 's/\t/^A/g' input
相关文章推荐
- hive的数据导入与数据导出:(本地,云hdfs,hbase),列分隔符的设置,以及hdfs上传给pig如何处理
- hive的数据导入与数据导出:(本地,云hdfs,hbase),列分隔符的设置,以及hdfs上传给pig如何处理
- hive 使用load导入数据时是否可以指定分隔符
- SSIS处理导入数据时, 存在的更新, 不存在的插入
- SSIS处理导入数据时, 存在的更新, 不存在的插入
- SSIS处理导入数据时, 存在的更新, 不存在的插入
- php中使用ExcelFileParser处理excel获得数据(可作批量导入到数据库使用)
- SQL Server 2005 sp2安装后导入数据出错的处理方法
- SSIS处理导入数据时, 存在的更新, 不存在的插入
- direct=true 错误处理方法 (关于 Oracle 的数据导入导出及 Sql Loader (sqlldr) 的用法
- SSIS处理导入数据时, 存在的更新, 不存在的插入
- mysql中用HEX和UNHEX函数处理二进制数据的导入导出
- SQL SERVER2000教程-第五章 处理数据 第十四节 数据导入导出
- SSIS处理导入数据时, 存在的更新, 不存在的插入
- SSIS处理导入数据时, 存在的更新, 不存在的插入
- SSIS处理导入数据时, 存在的更新, 不存在的插入(转载)
- SSIS处理导入数据时, 存在的更新, 不存在的插入
- hive数据导入
- 使用ExcelFileParser处理excel获得数据 可作批量导入到数据库使用
- mysql导入数据的处理