您的位置：首页 > 运维架构 > Linux

鸟哥的Linux私房菜基础学习篇第三版第十二章正则表达式与文件格式化处理 12.4.2 awk 好用的数据处理工具

2013-01-03 18:12 483 查看

awk比较倾向于将一行分成数个“字段”来处理。因此，awk相当适合处理小型的数据处理。awk通常运行的模式是：

lester@lester-ThinkPad-T410:~/study/awk$ awk '条件类型 1 { 动作 1} 条件类型2 {动作2} ...' filename

awk后面接两个单引号并加上大括号{}来设置想要对数据进行的处理动作。awk可以处理后续接的文件，也可以读取来自前个命令的standardoutput。但如前面说的，awk主要是处理每一行的字段内的数据，而默认的字段分隔符为空格键或[tab]键。举例来说，我们用last可以将登陆者的数据取出来，结果如下所示：

lester@lester-ThinkPad-T410:~/study/awk$ last -n 5 <==仅取出前5行

root      pts/1      192.168.1.100   Tue Feb 10 11:21   still   logged in

若想取出帐号与登陆者的IP，且帐号与IP之间以[tab]隔开，则会变成这样

lester@lester-ThinkPad-T410:~/study/awk$ last -n 5|awk '{print $1 "\t" $3}'

root 192.168.1.100

上面是awk最常使用的动作，通过print的功能将字段数据列出来！字段的分隔则以空格键或者[tab]按键来隔开。因为不论哪一行我都要处理，因此，不需要有条件类型的限制！我所想要的第一列及第三列，但是，第五行的内容很奇怪。这是因为数据格式的问题，所以使用awk的时候，请先确认一下你的数据，如果是连续性的数据，请不要有空格或[tab]在内，否则，就会像这个例子这样，会发生误判。

另外，由上面这个例子你也会知道，在每一行的每个字段都是有变量名称的，那就是$1,$2等变量名称。以上面的例子来说，root是$1,因为它是第一列嘛！至于192.168.1.100是第三列，所以它就是$3，后面以此类推。还有个变量，那就是$0,$0代表一整行数据的意思。以上面的例子来说，第一行的$0代表的就是"root.."那一行。由此可知，刚才上面五行当中，整个awk的处理流程是：

1、读入第一行，并将第一行的数据填入$0,$1,$2等变量当中；

2、依据条件类型的限制，判断是否需要进行后面的操作

3、做完所有的动作与条件类型

4、若还有后续的“行”的数据，则重复上面1~3的步骤，直到所有的数据都读完为止

故 awk以行为一次处理的单位，而以字段为最小的处理单位

awk怎么知道我到底这个数据有几行和几列呢？

变量名称                                                               代表意义

NF                                                                      每一行($0)拥有的字段总数

NR                                                                     目前awk所处理的是“第几行”数据

FS                                                                       目前的分隔字符，默认是空格键

我们继续以上面last -n 5 的例子来做说明，如果我想要：

列出每一行的帐号(就是$1)

列出目前处理的行数(就是awk内的NR变量)

并且说明，该行有多少个字段(就是awk内的NF变量)

则可以这样

注意：awk后续的所有动作的是以单引号" ' "扩住的

lester@lester-ThinkPad-T410:~/study/awk$ last -n 5|awk '{print $1 "\t lines:" NR "\t columes:" NF}'

root 192.168.1.100    lines:1    columes:10

root 192.168.1.100    lines:2     columes:11

root 192.168.1.100    lines:3     columes:9

awk逻辑运算符
> 大于

< 小于

>= 大于等于

<= 小于等于

== 等于

！=   不等于

lester@lester-ThinkPad-T410:~/study/awk$ cat /etc/passwd| awk ' $3<10 {print $1 "\t" $3}'

root:x:0:0:root:/root:/bin/bash

daemon:x:1:1:daemon:/usr/sbin:/bin/sh

bin:x:2:2:bin:/bin:/bin/sh

sys:x:3:3:sys:/dev:/bin/sh

sync:x:4:65534:sync:/bin:/bin/sync

games:x:5:60:games:/usr/games:/bin/sh

...

...

...

lester@lester-ThinkPad-T410:~/study/awk$ cat /etc/passwd| \

> awk '{FS=":"} $3<10 {print $1 "\t" $3}'

root:x:0:0:root:/root:/bin/bash

daemon 1

bin     2

sys     3

sync    4

games   5

man     6

lp      7

mail    8

news    9

第一行没有正确显示出来，因为我们读取第一行的时候，那些$1,$2...默认还是以空格键为分隔的，所以虽然我们定义了FS=“:”，但是却仅能在第二行后才开始生效。那怎么办呢？我们可以预先设置awk的变量，利用BEGIN这个关键字，这样做：

lester@lester-ThinkPad-T410:~/study/awk$ cat /etc/passwd | awk 'BEGIN {FS=":"} $3 < 10 {print $1 "\t" $3}'

root    0

daemon 1

bin     2

sys     3

sync    4

games   5

man     6

lp      7

mail    8

news    9

而除了BEGIN之外，还有END。使用awk来进行"计算功能"

假设我有一个薪资数据表文件名为pay.txt，内容是这样的：

lester@lester-ThinkPad-T410:~/study/awk$ cat pay.txt

Name                    1st                  2nd               3th

VBird                     23000           24000           25000

DMTsai                 21000           20000           23000

Bird2                     43000           42000           41000

如何能计算每个人的总额，并且格式化输出呢？可以这样考虑：

第一行总是说明，所以第一行不要进行加总(NR==1时处理)

第二行以后就会有加总的情况出现(NR>=2以后处理)

lester@lester-ThinkPad-T410:~/study/awk$ cat pay.txt | awk 'NR==1 {printf " %10s   %10s   %10s   %10s   %10s\n",$1,$2,$3,$4,"Total"};

NR>=2{total=$2+$3+$4; printf "%10s %10d %10d   %10d   %10.2f\n",$1,$2,$3,$4,total}'

        Name          1st             2nd             3th        Total

    VBird        23000       24000        25000     72000.00

        DMTsai    21000       20000        23000     64000.00

        Bird2        43000       42000        41000    126000.00

上面的例子有几个重要事项应该要说明的：

所有awk的动作，即在{}内的动作，如果有需要多个命令辅助时，可利用“;”间隔，或者直接以[Enter]按键来隔开每个命令，例如上面的范例中，鸟哥共按了三次[Enter]

注意：在命令中的分隔符

逻辑运算当中，如果是“等于”的情况，则务必使用两个等号“==”！

格式化输出时，在printf的格式设置当中，务必加上\n，才能进行分行！

与bash、shell的变量不同，在awk当中，变量可以直接使用，不需加上$符号

awk的动作内{}也是支持if(条件)的。举例来说，上面的命令可以修改成为这样：

lester@lester-ThinkPad-T410:~/study/awk$ cat pay.txt| awk '{ if (NR==1) printf "%10s %10s %10s %10s %10s \n",$1,$2,$3,$4,"Total"};NR>=2 {total = $2+$3+$4 ;printf "%10s %10d %10d %10d %10.2f\n",$1,$2,$3,$4,total}'

      Name               1st         2nd        3th       Total

     VBird              23000       24000      25000    72000.00

    DMTsai           21000       20000      23000    64000.00

     Bird2              43000       42000      41000   126000.00

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： AWK linx 鸟哥

相关文章推荐

新的分享

章节导航

鸟哥的Linux私房菜 基础学习篇 第三版 第十二章 正则表达式与文件格式化处理 12.4.2 awk 好用的数据处理工具

鸟哥的Linux私房菜基础学习篇第三版第十二章正则表达式与文件格式化处理 12.4.2 awk 好用的数据处理工具