linux中合并多个文本文件以及对数据的处理
2017-10-26 19:46
302 查看
合并文件:
当一个文件夹下有很多的较小的文本文件,我们希望将其合并成一个文件,可以使用cat 文件夹名/* > 文件名
如/home/user/sougou/目录下有500个1M大小的文本文件,我们希望将其合并成一个文件:
先cd到家目录下:cd /home/user
然后合并文件:cat sougou/* > sougouall.txt
执行以上命令后我们将在/home/user/目录产生一个sougouall.txt的文本文件
对数据的处理:删除每行第一个和最后一个字符
现在我们已经有了sougouall.txt的数据,但是sougouall.txt文件是json格式的,每一行都形如:[{"name":"zhang","age":"21","sex":"M"}] ,而我想通过hive中的get_json_object函数操作这些数据,所以我希望去掉每一行第一个 [ 以及最后一个 ],可以使用一下命令:
sed 's/^\[//g' sougouall.txt >sougouall1.txt
sed 's/\]-r$//g' sougouall1.txt > sougouall2.txt
以上两条命令可以分别去掉以[开头的[以及以]结尾的]
当一个文件夹下有很多的较小的文本文件,我们希望将其合并成一个文件,可以使用cat 文件夹名/* > 文件名
如/home/user/sougou/目录下有500个1M大小的文本文件,我们希望将其合并成一个文件:
先cd到家目录下:cd /home/user
然后合并文件:cat sougou/* > sougouall.txt
执行以上命令后我们将在/home/user/目录产生一个sougouall.txt的文本文件
对数据的处理:删除每行第一个和最后一个字符
现在我们已经有了sougouall.txt的数据,但是sougouall.txt文件是json格式的,每一行都形如:[{"name":"zhang","age":"21","sex":"M"}] ,而我想通过hive中的get_json_object函数操作这些数据,所以我希望去掉每一行第一个 [ 以及最后一个 ],可以使用一下命令:
sed 's/^\[//g' sougouall.txt >sougouall1.txt
sed 's/\]-r$//g' sougouall1.txt > sougouall2.txt
以上两条命令可以分别去掉以[开头的[以及以]结尾的]
相关文章推荐
- Matlab中导入文本文件中的数据 矩阵合并 以及C++中删除文件操作
- [JIRA] 最新Linux安装版本jira6.3.6安装破解以及数据导入的详细步骤
- Android通过Get方式提交数据以及乱码处理
- (大数据工程师学习路径)第一步 Linux 基础入门----简单的文本处理
- Linux入门-7 Linux管道、重定向以及文本处理
- linux之用echo输入数据到文本末尾以及用open ssl命令在证书文件里面获取公钥
- hpuoj【1293】合并数组(排序并处理重复数据)【水题】
- Linux 处理数据文件
- cocos2dx EventListenerCustom类控制事件的分发 处理不同层之间的事件传递以及自定义用户数据
- Oracle系统紧急故障处理(数据文件、日志文件以及表空间损坏的处理)
- linux下redis安装以及处理一些常见问题
- 主外键关联数据的处理方式,以及应用场景分析
- 一只简单的网络爬虫(基于linux C/C++)————Url处理以及使用libevent进行DNS解析
- 实验2-3-3 信号处理总结以及Linux下支持的信号列表
- Linux 三层、四层接收数据处理函数相关的链表
- Oracle中的LOB数据类型以及ibatis中处理该类型的typeHandler
- linux【Shell脚本】逐行处理文本文件
- Linux下Oracle数据库表结构以及数据导入导出
- Linux主机下返回403文件权限禁止的处理以及“777”的由来
- 数据获取以及处理系统 --- 功能规格说明书