您的位置:首页 > 其它

正则表达式 Regular Expression

2016-04-05 17:06 155 查看
重新整理记录一下正则规则

一、定义

Regular Expression - 正规的/有规律的表达式,是计算机科学的一个概念。使用一个字符串来描述、匹配一系列符合某个句法规则的字符串

最初这个概念是由Unix中的工具软件如sed和grep普及开的,通常简写为regex

几乎所有操作系统以及编程语言中都有正则表达式的应用

二、引擎

正则引擎主要分为两大类:

DFA

NFA

POSIX NFA

一. DFA引擎

速度:最快

特点:以文本为主导

主要使用者:awk、egrep、flex、lex、MySQL、Procmail

二. NFA引擎

速度:次之

特点:以表达式为主导,更容易操纵,一般程序员更偏爱NFA

只要使用者:GNU Emacs、Java、ergp、less、.NET、PCRE

三. POSIX NFA

意义:为了防止继续出现不同引擎的变体而产生的统一引擎

速度:最慢

使用者:mawk、GNU Emacs(使用时显式指定)

三、表达式的构造

表达式的基本思路:对字符串中的字符一个一个的进行匹配

构造匹配
Characters - 字符
x字符x就带表某个字符x
\\backslash 反斜杠
\0noctal 八进制数n
\xhhhexadecimal 十六进制数hh
\uhhhhhexadecimal 十六进制数hhhh
\ttab 制表符(‘\u0009’)
\nnewline 新行(‘\u000A’)
\rcarriage return 回车(‘\u000D’)
Character classes - 字符类型
[abc]a,b, or c
[^abc]exclusive OR 任意character except a,c, or c
[a-zA-Z]a through z or A through Z
[a-d[m-p]]并集,相当于[a-dm-p]
[a-z&&[bcd]]交集,相当于[bcd]
[a-z&&[^bc]]交集,相当于[ad-z]
Predefined character classes - 预定义的字符类型
.任意character
\dA digit:[0-9]
\DA non-digit:[^0-9]
\swhitespace:[ \t\n\x0B\f\r],注意中括号的第一个字符是空格(ASCII32)不是\t
\Snon-whitespace:[^\s]
\wA word:[a-zA-Z_0-9]
\WA non-word:[^\w]
Boundary matchers - 边界匹配器
^The beginning of a line
$The end of a line
\bA word boundary
\BA non-word boundary
Greedy quantifiers - 贪婪量词
X?X出现一次或not at all
X*X出现0次或多次
X+X出现一次或多次
X{n}X固定出现n次
X{n,}X至少出现n次
X{n,m}X出现n到m次
Reluctant quantifiers - 勉强量词由Greedy加”?”构成
X??X出现一次或not at all
X*?X出现0次或多次
X+?X出现一次或多次
X{n}?X固定出现n次
X{n,}?X至少出现n次
X{n,m}?X出现n到m次
Possessive quantifiers - 独占量词由Greedy加”+”构成
X?+X出现一次或not at all
X*+X出现0次或多次
X++X出现一次或多次
X{n}+X固定出现n次
X{n,}+X至少出现n次
X{n,m}+X出现n到m次
Logical operators - 逻辑操作符
XYX后面跟Y
XY
(X)X,作为一个捕获组capturing group
Back references - 引用捕获组
\n代表捕获组中的第n个,第0个默认代表整个表达式
Special constructs - 特殊构造包括非捕获组
(?:X)X作为非捕获组
(?=X)X通过零宽度正向预测先行断言,匹配X前面的位置
(?!X)X通过零宽度负预测先行断言,匹配后面跟的不是exp的位置
(?<=X)X通过零宽度正回顾后发断言,匹配X后面的位置
(?X通过零宽度负回顾后发断言,匹配前面不是X的位置
(?>X)X作为独立组,非捕获
TIPS:

零宽度断言用于匹配那些:在X之前或之后的需求

四、一些点

1. Groups and capturing 组和捕获

捕获组的编号通过从左至右数左括号来编号,如表达式((A)(B(C)))中,

0:始终代表整个表达式

1:((A)(B(C)))

2:(A)

3:(B(C))

4:(C)

捕获的子序列可以通过上面说的Back references在表达式中使用

2. Backslash 反斜线

\Backslash反斜线用于:

引用转义构造

引用其它应该被解释为非转义构造的字符(转义字符想要正常使用)

另外,在Java中字符串中的反斜线被视为Unicode转义(写法\uxxxx)或其它字符转义,因此需要使用两个反斜线来代表原意

五、Java中

使用到的各种情况,功能直接或间接都是由java.util.regex包中的两个类Pattern和Matcher的方法来完成的

Pattern类

正则表达式的编译表示形式

指定为字符串的正则表达式必须首先被编译为此类的实例:

Pattern p = Pattern.compile(regex);


Pattern只创建正则对象,而具体功能的实现则由Matcher类提供,典型的调用顺序是:

Pattern p = Pattern.compile("a*b");
Matcher m = p.matcher("aaaaaab");
boolean b = m.matches();


Matcher类

通过解释某个固定的Pattern从而对固定character sequence执行匹配操作的引擎

Matcher对象一经建立,其Pattern和String都已经确定了

匹配器可以执行3种不同的匹配操作:

matches

将整个输入序列与该模式进行匹配

lookingAt

将输入序列从头开始与该模式匹配

find

扫描输入序列以查找与该模式匹配的下一个子序列

当由以上3个中任意一个匹配方法匹配成功后,就可做很多事情了,如:

m.group();//获取刚刚匹配的输入子序列

m.start();//获取刚刚匹配的输入子序列的开始索引

m.end();//同上,结束索引

1. 匹配

/**
* 1. 匹配
*  方法:使用String的matches()
*  规则:第一位必须是1,第二位可以是3/5/8,后面是9位数字
*/
String str1 = "13812312319";
String regex1 = "1[358]\\d{9}";
System.out.println(str1.matches(regex1));//true


2. 分割

/**
* 2. 分割
*  方法:使用String的split()
*  目标:
*  2.1 任意个空格的分割
*  2.2 以.分割:需要注意取消.在正则中代表任意字符的含义
*  2.3 重复的字符来分割,需要使用分组,因为要求第2个字符跟第1个相同
*/
String str21 = "asdf 909  sdfd sadf           sdf";
String regex21 = "\u0020+";//空格就是\u0020(十进制32),也可以直接敲个 (前面是个空格),或者使用\\s
String [] strs21 = str21.split(regex21);

String str22 = "asdf.909.sdfd.sadf.sdf";
String regex22 = "\\.";//首先\.代表想正常使用点(而不是正则字符),又因为在Java的String中,所以再加\
String [] strs22 = str22.split(regex22);

String str23 = "asdfssss909aaaasdfdbbbbbsadfttttsdf";
String regex23 = "([a-z])\\1+";//首先,第一个字符是任意小写英文;接着,第二个字符和第一个一样;最后,第二个字符出现至少一次
String [] strs23 = str23.split(regex23);


3. 替换

/**
* 3. 替换
*  方法:使用String的replaceAll()
*  目标:
*  3.1 简单替换
*  3.2 使用被替换的内容替换,将重复的变为1个:需使用组,可以在方法第二个参数中使用美元符号$选取组
*  3.3 手机号码中4位用*号代替
*/
String str31 = "asdf 909  sdfd sadf           sdf";
String regex31 = "\u0020+";
str31 = str31.replaceAll(regex31, "1");//asdf19091sdfd1sadf1sdf

String str32 = "asdf 909  sdfd sadf           sdf";
String regex32 = "(\u0020)+";
str32 = str32.replaceAll(regex32, "$1");//asdf 909 sdfd sadf sdf

String str33 = "13812312319";
String regex33 = "(.{3}).{4}(.{4})";//将需要保留的内容编组保留,以便之后还原,然后整体替换
str33 = str33.replaceAll(regex33, "$1****$2");


4. 获取

/**
* 4. 获取
*  方法:创建一个匹配给定输入(String)和给定模式(Pattern)的匹配器(Matcher)
*  目标:
*  4.1 获取3个字母组成的单词
*/
String str41 = "asdf, sdd*adf%$$sdsf";
String regex41 = "[a-z]{3}";
Pattern p = Pattern.compile(regex41);//创建正则模式对象
Matcher m = p.matcher(str41);//创建根据固定字符串和模式的匹配器
while(m.find()){//查找一个匹配的子序列
System.out.println(m.group());//返回之前匹配的输入子序列
}


完整的学习正则表达式和Java中的正则,我推荐两个地址:

正则表达式30分钟入门教程

JavaSE8的API中的java.util.regex.Pattern类

正则表达式所有东西还是不少的,较为复杂,而且平常使用的只是一小部分,没有必要全学完

可以学会常用的,不常用的用到时去上面两个地方查询
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: