您的位置:首页 > 其它

正则表达式入门

2016-06-05 11:38 651 查看
本文是根据大神的文章做的笔记,原文点这里

metacharacter(元字符):

\b : 匹配一个位置(单词的开始或结束) 如:\bhi\b会精确的匹配到hi这个单词
: 匹配除换行符以为的任意字符
: 代表数量,指定前边的内容可以连续重复使用任意次以使整个表达式得到匹配  如:\bhi\b.*\bLucy\b意思是先一个单词hi然后是任意个字符(但是不能是换行),最后是Lucy这个单词
\d  : 匹配一位数字(0或1或2...)如 :0\d\d\d-\d\d\d\d\d\d\d\d意思是0开头,然后是2个数字,然后是一个连字符“-”,最后是8个数字。也可以这样写0\d{2}-\d{8}这里{2}{8}的意思是前边的\d必须连续匹配2次(8次)
\s  : 匹配任意空白符,包括空格,制表,换行,中文全角空格等
\w  : 匹配字母或数字或下划线或汉字等。

    栗子:\ba\w*\b意思是,以字母a开头的单词----显示某个单词开始处(\b),然后是字母a,然后是任意数量的字母或数字(\w*),最后是单词结束处(\b)

正则表达式里边的一个单词:就是不少于一个连续的\w
: 表示数量,类似*,但是+代表前边的内容重复1次或多次,*是0次或多次 如:\d+匹配一个或更多连续的数字;\b\w{6}\b匹配刚好6个字符的单词
: 匹配字符串的开始
: 匹配字符串的结束

    ^和$都匹配一个位置,这与\b类似。^用来匹配你要查找的字符串的开头,$匹配结尾。如:^\d{5,12}$匹配5到12位数字({5,12}代表匹配次数不能少于5不能多于12)

数量限定符:
*  : 重复0次或更多次
: 重复1次或更多次
: 重复0次或1次
{n}: 重复次
{n,}: 重复n次或更多次
{n,m}: 重复不少于n次不多于m次

转义字符:
\  : 如果你想查找元字符本身或者\本身就给使用"\",如:\.和\*和\\

字符类:
[]  : 匹配“[]”内列出的任何一个元素,如: [aeiou]匹配aeiou中的任何一个;[.?!]匹配匹配标点符号“.”或“?”或“!”;[0-9]匹配的含义与\d就完全一样,都匹配一个数字

下面是一个更复杂的表达式:\(?0\d{2}[) -]?\d{8}。

这个表达式可以匹配几种格式的电话号码,像(010)88886666,或022-22334455, 或02912345678等。我们对它进行一些分析吧:首先是一个转义字符\(,它能出现0次或1次(?),然后是一个0,后面跟着2个数字(\d{2}),然后是)或-或空格中 的一个,它出现1次或不出现(?),最后是8个数字(\d{8})。

“(”和“)”也是元字符,所以在这里需要使用转义。

分支条件:

分支条件指的是正则表达式中有多种规则,如果满足其中一种都应当完成匹配,具体方法是用“|”将不同的规则分隔开。(有点类似或操作符)。如:\d{5}-\d{4}|\d{5}这个匹配美国的邮编,五位数字或者连字号隔开的9位数字。很简单但是要注意: 条件的顺序也是很重要的,如果改成\d{5}|\d{4}-\d{5}那么只会匹配五位的邮编和九位邮编的前五位。也就是分支条件将会从左到右测试每个条件,如果满足了某个分支就不会再管其他条件了。

反义:

有时需要查找不属于某个能简单定义的字符类的字符,如查找除了数字以外的其它任意字符,这时就要用到反义了。
\W  : 匹配任意不是字母,数字,下划线,汉子的字符
\S  : 匹配任意不是空白的字符
\D  : 匹配任意非数字的字符
\B  : 匹配不是单词开头或结束的位置
[^x]: 匹配除了x以外的任意字符
[^aeiou]: 匹配除了aeiou以外的任意字符

分组:

单个字符的重复直接加上限定符就可以实现,但是想重复多个字符又该怎么办?可以直接用小括号指定子表达式,然后就可以对这个子表达式添加限定符了。如:(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}匹 配1到3位的数字,(\d{1,3}\.){3}匹 配三位数字加上一个英文句号(这个整体也就是这个分组)重 复3次,最后再加上一个一到三位的数字(\d{1,3})。但是这个正则会匹配256.300.888.999这种错误的ip,所以改进如下:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

向后引用:没写的同样的很重要,只是没必要原样copy过来,看这里

零宽断言:

负向零宽断言:

注释:

贪婪与懒惰:


懒惰限定符:
*?  : 重复任意次但尽可能少重复
+?  : 重复1次或多次,尽量少重复
??  : 重复0次或1次,尽量少重复
{n,m}? : 重复不少于n次不多于m次,尽量少重复
{n,}? : 重复n次以上,尽量少重复

在线编辑器:http://www.regexpal.com/
原文:http://www.oschina.net/question/12_9507?fromerr=726wchYs#alternative

关于正则表达式语言元素的MSDN在线文档:https://msdn.microsoft.com/zh-cn/library/az24scfc.aspx

 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  正则 正则表达式