您的位置:首页 > 运维架构 > Linux

20150827-Linux grep文本过滤工具及正则表达式

2015-09-04 12:26 615 查看

linux grep文本过滤工具

待完善。。。。。
grep:
Linux文本处理三剑客:
grep: 文本过滤工具;
sed:文本编辑器(行);stream editor
awk:文本报告生成器;Linux上awk的实现为gawk

grep: Global search REgular expression and Print out the line.
作用:文本搜索工具,根据用户指定的“模式(pattern)”逐行去搜索目标文本,打印匹配到的行;
模式:由正则表达式的元字符及文本字符所编写的过滤条件;

元字符:字符不表示其字面意义,而用于表示通配或控制功能;

分两类:
基本正则表达式:BRE
扩展正则表达式:ERE

正则表达式引擎;

grep [OPTIONS] PATTERN [FILE...]:
选项:
--color=auto:对匹配到的串做高亮显示;
-v:显示模式匹配不到行;
-i: 忽略字符大小写;
-o: 仅显示能够被模式匹配到的串本行;
-q: 静默模式;
-E:使用扩展的正则表达式;

基本正则表达式

基本正则表达式的元字符:
字符匹配:
.: 匹配任意单个字符;
[]:匹配指定范围内的任意单个字符;
[^]:匹配指定范围内的任意单个字符;

[:lower:], [:upper:], ...

次数匹配:用于要指定其次数的字符的后面;
*: 任意次;
abxy
xay
xxxxxxxy

grep "x*y"

\?:0或1次;
grep "x\?y"

\+:1或多次;
\{m\}:精确限制为m次;
\{m,n\}: 至少m次,至多n次,[m,n]
\{0,n\}:至多n次;
\{m,\}:至少m次;

.*: 匹配任意长度的任意字符;

位置锚定:
^: 行首锚定;用于模式的最左侧;
$: 行尾锚定;用于模式的最右侧;
\<, \b: 词首锚定;用于表示单词的模式的左侧;
\>, \b:词尾锚定;用于表示单词的模式的右侧;
^$: 空白行;

分组:\(\)

分组的小括号中的模式匹配到的内容,会在执行过程中被正则表达式引擎记录下来,并保存内置的变量中;这些变量分别是\1, \2, ...
\1: 从左侧起,第一个左括号,以及与之配对的右括号中间的模式所匹配到的内容;
\2:
...

后向引用:使用变量引用前面的分组括号中的模式所匹配到的字符;

练习:
1、显示/etc/passwd文件中以bash结尾的行;
2、显示/etc/passwd文件中的两位数或三位数;
3、显示'netstat -tan'命令结果中以‘LISTEN’后跟0个、1个或多个空白字符结尾的行;
4、添加用户bash,testbash, basher以及nologin用户(nologin用户的shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;

扩展正则表达式

扩展的正则表达式:
grep家庭有三个命令:
grep:基本正则表达式
-E: 扩展正则表达式
-F:不支持正则表达式
egrep:扩展正则表达式
fgrep:不支持正则表达式

扩展正则表达式的元字符:
字符匹配:
.: 任意单个字符
[]:
[^]:

次数匹配:
*
?: 0次或1次;
+: 1次以上;
{m}: 精确匹配m次;
{m,n}: 至少m次,至多n次;

锚定:
^: 锚定行首
$: 锚定行尾
\<, \b
\>, \b

分组:()
后向引用:\1, \2, ...

或者:
a|b
C|cat: 不表示Cat或cat,而表示C或cat;
要写成(C|c)at

练习:
1、显示当前系统上root、centos或user1用户的默认的shell和UID;
2、找出/etc/rc.d/init.d/functions文件中某单词(单词中间可以存在下划线)后面跟着一组小括号的行;
3、使用echo输出一个路径,而后egrep找出其路径基名;

进一步地:使用egrep取出其目录名;

4、找出ifconfig命令执行结果中1-255之间的数字;

grep命令的使用;
[[:space:]]\{1,\}

本文出自 “我拿流年乱了浮生” 博客,请务必保留此出处http://tasnrh.blog.51cto.com/4141731/1691289
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: