您的位置:首页 > 编程语言 > Java开发

java正则表达式

2016-02-12 23:46 399 查看
在做 Crawler的时候,本来是准备用正则的,但是看jsoup很好用,就没有学,刚刚在做古诗提取的时候,又要用到正则表达式,还是学了算了。

说明:

文章重点参考的http://www.cnblogs.com/ggjucheng/p/3423731.html,加上自己有一点理解。

正则表达式的语法可以参考:
http://www.runoob.com/regexp/regexp-syntax.html
java正则表达式主要是关于java.util.regex中的两个类:

1.Pattern:正则表达式经过编译后的表现模式。

2.Matcher:一个Matcher对象是一个状态机,它依据Pattern对象做为匹配模式对字符串展开匹配检查。

两者的关系是,Matcher在Pattern给定的模式控制下进行字符串匹配工作。

在正式开始正则表达式学习前,先要理解捕获组的概念。

一.捕获组的概念

  捕获组就是将正则表达式中子表达式匹配的内容,保存到内存中,并以数字的编号或者显示命令的组里,方便后面的引用。主要分为两种,其语法如下:

(1)普通捕获组:(expression)

大多数语言都支持,这也是我们学习的重点。

(2)命名捕获组:(?<name>expression)

暂不分析。

要注意的是,除这两种语法外,其它的语法都不是捕获组。

捕获组的编号:从左到右计算其开括号 "(" 来进行编号,且从1开始,因为编号0是正则表达式整体。

例子:

匹配格式为yyyy-mm-dd的日期。

private static void study1(){
String line = "2016-02-15";
String pattern = "(\\d{4})-(\\d{2}-(\\d\\d))";
//([0-9])=(//d)

//pattern对象是一个正则表达式的编译表示
Pattern r = Pattern.compile(pattern);

//Matcher对象是对输入字符串进行解释和匹配操作的引擎。
Matcher m = r.matcher(line);
System.out.println("group:"+ m.groupCount());
if (m.find()){
System.out.println("Found value: "+ m.group(0));//all
System.out.println("Found Value: "+ m.group(1));//(\\d{4})
System.out.println("Found value: "+ m.group(2));//(\\d{2})
System.out.println("Found value: "+ m.group(3));//(\\d\\d)

}else {
System.out.println("No match");
}
}


输出结果为

group:3
Found value: 2016-02-15
Found Value: 2016
Found value: 02-15
Found value: 15

二.Pattern类的使用

  用于创建一个正则表达式,也可以说是一个匹配模式,其构造方法是私有的,但可以通过Pattern.compile(regex)简单工厂方法来创建一个正则表达式。

例子:查看regex参数

Pattern pattern = Pattern.compile("\\w+");
System.out.println(pattern.toString());
System.out.println(pattern.pattern());


结果

\w+
\w+

返回的都是正则表达式的字符串形式。

(1)pattern.split(Charsequence input)

  用于分隔字符串,并返回一个String [ ],是否String.split(String regex) 就是通过这个实现的呢?

Pattern pattern = Pattern.compile("\\d");
String [] strArray =pattern.split("我的QQ是:456456我的电话是:0532214我的邮箱是:aaa@aaa.com");
for (String aftersplit: strArray){
System.out.println(aftersplit);
}


结果为:

str[0]="我的QQ是:" str[1]="我的电话是:" str[2]="我的邮箱是:aaa@aaa.com"

(2) Pattern.matcher(String regex,CharSequence input)

  静态方法,用于快速匹配字符串,适用于只匹配一次,且匹配全部字符串。

例子:

Pattern.matches("\\d+","2223");//返回true
Pattern.matches("\\d+","2223aa");//返回false,需要匹配到所有字符串才能返回true,这里aa不能匹配到
Pattern.matches("\\d+","22bb23");//返回false,需要匹配到所有字符串才能返回true,这里bb不能匹配到


(3)Pattern.matcher(CharSequence input)

  Matcher出现了,这个方法返回一个Matcher,其没有公共构造方法(私有的),只能通过 Pattern.matcher得到。

上面我们看到,Pattern只能做一此简单的匹配,要得到更强大的正则匹配,则要用到Matcher,Matcher提供了对正则表达式分组与多次匹配的支持。

例子:

Pattern p = Pattern.compile("\\d+");
Matcher m = p.matcher("22bb33");
System.out.println(m.pattern());
System.out.println(m.toString());


结果为

\d+
java.util.regex.Matcher[pattern=\d+ region=0,6 lastmatch=]

可以看到,matcher.toString()会返匹配的情况。

(4)Matcher.matches()/Matcher.lookingAt()/Matcher.find()

  Matcher类提供三个匹配操作方法,它们都返回boolean类型,匹配成功时返回 true。

matches()

对整个字符串进行匹配,只有整个字符串都匹配了才返回true。

Pattern p = Pattern.compile("\\d+");
Matcher m = p.matcher("22bb33");
System.out.println(m.matches());
Matcher m2 = p.matcher("2233");
System.out.println(m2.matches());


返回结果

false, true

我们可以发现,下面的两种代码等价:

Pattern.matches(String regex,CharSequence input)

Pattern.compile(regex).matcher(input).matches()

lookingAt()

对前面的字符串进行匹配,只有匹配到的字符串在最前面才返回true。

Pattern p = Pattern.compile("\\d+");
Matcher m = p.matcher("22bb33");
System.out.println(m.lookingAt()); //ture
Matcher m2 = p.matcher("aa2233");
System.out.println(m2.lookingAt());//flase


find()

匹配到的字符串可以在任何位置。

Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("22bb23");
m.find();//返回true
Matcher m2=p.matcher("aa2223");
m2.find();//返回true
Matcher m3=p.matcher("aa2223bb");
m3.find();//返回true
Matcher m4=p.matcher("aabb");
m4.find();//返回false


(5)Matcher.start()/Matcher.end()/Matcher.group()

  在使用matches()/lookingAt(),find()执行匹配操作后,就可以利用上面的三个方法得到更详细的信息。

start():返回匹配到的子字符串在字符串中的索引的位置。

end():返回匹配到的子字符串的最后一个字符在字符串中的位置。

group():返回匹配到的子字符串。

Pattern p = Pattern.compile("\\d+");
Matcher m = p.matcher("aaaa2222bb");
m.find();//
System.out.println(m.start());//4
System.out.println(m.end());  //8
System.out.println(m.group());//2222

Matcher m2 = p.matcher("2222bb");
m2.lookingAt();
System.out.println(m2.start());//0
System.out.println(m2.end());  //4
System.out.println(m2.group());//222

Matcher m3 = p.matcher("222");
m3.matches();
System.out.println(m3.start());//0
System.out.println(m3.end());  //3
System.out.println(m3.group());//222


下面再说说正则表达式分组的使用,start(),end(),group(),它们都有加入参数int index的重载方法,用于分组操作。

例子:

     Pattern p = Pattern.compile("([a-z]+)(\\d+)");//2 groups
Matcher m = p.matcher("aaa2223bb444");
System.out.println(m.groupCount());//2
while (m.find()){
System.out.println("====one match");
//all
System.out.print(m.start(0)+",");//0,
System.out.print(m.end(0)+",");   //7
System.out.println(m.group(0));  //aaa2223
//group 1
System.out.print(m.start(1)+",");//0
System.out.print(m.end(1)+",");   //3
System.out.println(m.group(1));  //aaa
//goup 2
System.out.print(m.start(2)+",");//3
System.out.print(m.end(2)+",");  //7
System.out.println(m.group(2));//2223
}


输出

2
====one match
0,7,aaa2223
0,3,aaa
3,7,2223
====one match
7,12,bb444
7,9,bb
9,12,444

源码显示,无参数时是直接调用的参数为0的值,要注意的是,只有匹配成功时才可以使用start,end,group。

最后一个例子,查找字符串中的数字:

Pattern p = Pattern.compile("\\d+");
Matcher m = p.matcher("我的QQ是:456456 我的电话是:0532214 我的邮箱是:aaa123@aaa.com");
while (m.find()){
System.out.println(m.group());
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: