Linux Shell 文本文件处理
2013-11-28 10:48
253 查看
通过sort/uniq获取文件内容的交集、合集和不同之处:假设有a、b两个文本文件,文件本身已经去除了重复内容。下面是效率最高的方法,可以处理任何体积的文件,甚至几个G的文件。(Sort对内存没有要求,但也许你需要用 -T 参数。)可以试着比较一下,你可以看看如果用Java来处理磁盘上文件的合并,需要用多少行代码。
汇总一个文本内容里第三列数字的和(这个方法要比用Python来做快3倍并只需1/3的代码量):
如果你想查看一个目录树里的文件的体积和修改日期,用下面的方法,相当于你挨个目录做”ls -l”,而且输出的形式比你用”ls -lR”更可读:
使用xargs命令。这个命令非常的强大。注意每行上你可以控制多少个东西的执行。如果你不确定它是正确的执行,先使用xargs echo。同样,-I{} 也非常有用。例子:
假设你有一个文本文件,比如一个web服务器日志,在某些行上有一些值,比如URL中的acct_id参数。如果你想统计每个acct_id的所有请求记录:
cat a b | sort | uniq > c # c 是a和b的合集 cat a b | sort | uniq -d > c # c 是a和b的交集 cat a b b | sort | uniq -u > c # c 是a和b的不同
汇总一个文本内容里第三列数字的和(这个方法要比用Python来做快3倍并只需1/3的代码量):
awk ‘{ x += $3 } END { print x }’ myfile
如果你想查看一个目录树里的文件的体积和修改日期,用下面的方法,相当于你挨个目录做”ls -l”,而且输出的形式比你用”ls -lR”更可读:
find . -type f -ls
使用xargs命令。这个命令非常的强大。注意每行上你可以控制多少个东西的执行。如果你不确定它是正确的执行,先使用xargs echo。同样,-I{} 也非常有用。例子:
find . -name \*.py | xargs grep some_function cat hosts | xargs -I{} ssh root@{} hostname
假设你有一个文本文件,比如一个web服务器日志,在某些行上有一些值,比如URL中的acct_id参数。如果你想统计每个acct_id的所有请求记录:
cat access.log | egrep -o ‘acct_id=[0-9]+’ | cut -d= -f2 | sort | uniq -c | sort -rn
相关文章推荐
- 利用Python对文本文件进行简单的处理
- Linux shell编程中IO和条件及循环处理的细节问题讨论
- 【C#】C#处理文本文件(转)
- linux shell 处理用户输入
- [原创] 在MFC中大家都习惯用CStdioFile来处理文本文件,可是为什么CStdioFile不叫CTextFile?
- 通过读写文本文件小结“关于python处理中文编码的问题”
- 【脚本语言系列】关于Python结构化文本文件处理Thrift,你需要知道的事
- 处理任意格式的文本文件
- linux_shell_awk 处理 文本文件 并导入excel
- linux shell 读文件按行处理
- asp.net 读取一个文本文件,并输出到网页显示 通过 一般处理程序实现
- linux sed命令参数及用法详解---linux 利用script来处理文本文件
- Linux Shell处理文本最常用的工具大盘点
- linux shell 监控服务状态 自动处理并通知管理员
- iphone阅读器,如果要读取一个文本文件,请问你是如何处理编码问题的?另外像pdf格式的文件,你如何读取。?
- C#处理文本文件
- Linux Shell编程step by step--文本文件最后两行相减
- python处理文本文件并生成指定格式的文件
- C#处理文本文件
- linux shell:使用trap来处理信号