您的位置:首页 > 编程语言 > Java开发

java正则表达式

2015-06-27 11:16 483 查看
 

String s="$avb Server(10.9.230.40)>aaaaa#{xxx}bbbb#{yyy}cccccc#{zzz}$avb Server(10.9.230.40)>";
Matcher  m = Pattern.compile("\\$avb").matcher(s);
int i=0;
while(m.find()){
System.out.println(m.group());
i++;
}
System.out.println(i);
String regex="(\\d{1,3})\\.\\[([a-z]{3})\\]";
Pattern pattern=Pattern.compile(regex);
Matcher matcher=pattern.matcher("1234.[abc]sss");
if(matcher.find()){
<span style="color:#ff0000;">System.out.println(matcher.group());
</span>			System.out.println(matcher.group(0));
System.out.println(matcher.group(1));
System.out.println(matcher.group(2));

}


结果:
$avb
$avb
2
<span style="color:#ff0000;">234.[abc]
</span>234.[abc]
234
abc


 

一、正则表达式基础知识

我们先从简单的开始。假设你要搜索一个包含字符“cat”的字符串,搜索用的正则表达式就是“cat”。如果搜索对大小写不敏感,单词“catalog”、“Catherine”、“sophisticated”都可以匹配。也就是说:

1.1 句点符号
通配符——句点符号“.”。完整的表达式就是“t.n”,它匹配“tan”、“ten”、“tin”和“ton”,还匹配“t#n”、“tpn”甚至“t n”,还有其他许多无意义的组合。这是因为句点符号匹配所有字符,包括空格、Tab字符甚至换行符,要让'.'匹配所有的字符需要设置pattern的模式。

Pattern pattern=Pattern.compile(">.*>",Pattern.DOTALL);
Matcher matcher=pattern.matcher("123>我们dddd\nddddddd<span style="color:#ff0000;">\</span><span style="color:#ff0000;">n</span>>");
if(matcher.find()){
System.out.println(matcher.group());
}

1.2 方括号符号
为了解决句点符号匹配范围过于广泛这一问题,你可以在方括号(“[]”)里面指定看来有意义的字符。此时,只有方括号里面指定的字符才参与匹配。也就是说,正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配,因为在方括号之内你只能匹配单个字符:

1.3 “或”符号
如果除了上面匹配的所有单词之外,你还想要匹配“toon”,那么,你可以使用“|”操作符。“|”操作符的基本意义就是“或”运算。要匹配“toon”,使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号,因为方括号只允许匹配单个字符;这里必须使用圆括号“()”。圆括号还可以用来分组,具体请参见后面介绍。

1.4 表示匹配次数的符号
表一显示了表示匹配次数的符号,这些符号用来确定紧靠该符号左边的符号出现的次数:


假设我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式如图一所示。在正则表达式中,连字符(“-”)有着特殊的意义,它表示一个范围,比如从0到9。因此,匹配社会安全号码中的连字符号时,它的前面要加上一个转义字符“\”。


图一:匹配所有123-12-1234形式的社会安全号码
假设进行搜索的时候,你希望连字符号可以出现,也可以不出现——即,999-99-9999和999999999都属于正确的格式。这时,你可以在连字符号后面加上“?”数量限定符号,如图二所示:


图二:匹配所有123-12-1234和123121234形式的社会安全号码
下面我们再来看另外一个例子。美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。图三显示了完整的正则表达式。


图三:匹配典型的美国汽车牌照号码,如8836KV
1.5 “否”符号
“^”符号称为“否”符号。如果用在方括号内,“^”表示不想要匹配的字符。例如,图四的正则表达式匹配所有单词,但以“X”字母开头的单词除外。


图四:匹配所有单词,但“X”开头的除外
1.6 圆括号和空白符号
假设要从格式为“June 26, 1951”的生日日期中提取出月份部分,用来匹配该日期的正则表达式可以如图五所示:


图五:匹配所有Moth DD,YYYY格式的日期
新出现的“\s”符号是空白符号,匹配所有的空白字符,包括Tab字符。如果字符串正确匹配,接下来如何提取出月份部分呢?只需在月份周围加上一个圆括号创建一个组。


图六:匹配所有Month DD,YYYY格式的日期,定义月份值为第一个组
1.7 其它符号

\\ 反斜杠

\t 间隔 ('/u0009')

\n 换行 ('/u000A')

\r 回车 ('/u000D')

\d 数字 等价于[0-9]

\D 非数字 等价于[^0-9]
\s 空白符号 [/t/n/x0B/f/r]

\S 非空白符号 [^/t/n/x0B/f/r]

\w 单独字符 [a-zA-Z_0-9]

\W 非单独字符 [^a-zA-Z_0-9]

1.8方法举例

在使用Pattern.compile函数时,可以加入控制正则表达式的匹配行为的参数:

Pattern Pattern.compile(String regex, int flag)

flag的取值范围如下:

Pattern.CANON_EQ     当且仅当两个字符的"正规分解(canonical decomposition)"都完全相同的情况下,才认定匹配。比如用了这个标志之后,表达式"a/u030A"会匹配"?"。默认情况下,不考虑"规 范相等性(canonical equivalence)"。
Pattern.CASE_INSENSITIVE(?i)     默认情况下,大小写不明感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹 配,只要将UNICODE_CASE与这个标志合起来就行了。

Pattern.COMMENTS(?x)     在这种模式下,匹配时会忽略(正则表达式里的)空格字符(译者注:不是指表达式里的"//s",而是指表达式里的空格,tab,回车之类)。注释从#开始,一直到这行结束。。
Pattern.DOTALL(?s)     在这种模式下,表达式'.'可以匹配任意字符,包括表示一行的结束符。默认情况下,表达式'.'不匹配行的结束符。
Pattern.MULTILINE

(?m)     在这种模式下,'^'和'$'分别匹配一行的开始和结束。此外,'^'仍然匹配字符串的开始,'$'也匹配字符串的结束。默认情况下,这两个表达式仅仅匹配字符串的开始和结束。

Pattern.UNICODE_CASE

(?u)     在这个模式下,如果你还启用了CASE_INSENSITIVE标志,那么它会对Unicode字符进行大小写不明感的匹配。默认情况下,大小写不敏感的匹配只适用于US-ASCII字符集。

Pattern.UNIX_LINES(?d)     在这个模式下,只有'/n'才被认作一行的中止,并且与'.','^',以及'$'进行匹配。

 

使用PatternMatcher对象,你可以用多个方法进行匹配操作,这些方法的第一个参数都是需要根据正则表达式进行匹配的字符串:
· boolean matches(String input, Pattern pattern):当输入字符串和正则表达式要精确匹配时使用。换句话说,正则表达式必须完整地描述输入字符串。
· boolean matchesPrefix(String input, Pattern pattern):当正则表达式匹配输入字符串起始部分时使用。
· boolean contains(String input, Pattern pattern):当正则表达式要匹配输入字符串的一部分时使用(即,它必须是一个子串)。
另外,在上面三个方法调用中,你还可以用PatternMatcherInput对象作为参数替代String对象;这时,你可以从字符串中最后一次匹配的位置开始继续进行匹配。当字符串可能有多个子串匹配给定的正则表达式时,用PatternMatcherInput对象作为参数就很有用了。用PatternMatcherInput对象作为参数替代String时,上述三个方法的语法如下:
· boolean matches(PatternMatcherInput input, Pattern pattern)
· boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)
· boolean contains(PatternMatcherInput input, Pattern pattern)
抛开空泛的概念,下面写出几个简单的Java正则用例:

◆比如,在字符串包含验证时

//查找以Java开头,任意结尾的字符串

  Pattern pattern = Pattern.compile("^Java.*");

  Matcher matcher = pattern.matcher("Java不是人");

  boolean b= matcher.matches();

  //当条件满足时,将返回true,否则返回false

  System.out.println(b);

◆以多条件分割字符串时

Pattern pattern = Pattern.compile("[, |]+");

String[] strs = pattern.split("Java Hello World  Java,Hello,,World|Sun");

for (int i=0;i<strs.length;i++) {

    System.out.println(strs[i]);

}

◆文字替换(首次出现字符)

Pattern pattern = Pattern.compile("正则表达式");

Matcher matcher = pattern.matcher("正则表达式 Hello World,正则表达式 Hello World");

//替换第一个符合正则的数据

System.out.println(matcher.replaceFirst("Java"));

◆文字替换(全部)

Pattern pattern = Pattern.compile("正则表达式");

Matcher matcher = pattern.matcher("正则表达式 Hello World,正则表达式 Hello World");

//替换第一个符合正则的数据

System.out.println(matcher.replaceAll("Java"));

◆文字替换(置换字符)

Pattern pattern = Pattern.compile("正则表达式");

Matcher matcher = pattern.matcher("正则表达式 Hello World,正则表达式 Hello World ");

StringBuffer sbr = new StringBuffer();

while (matcher.find()) {

    matcher.appendReplacement(sbr, "Java");

}

matcher.appendTail(sbr);

System.out.println(sbr.toString());

◆验证是否为邮箱地址

String str="ceponline@yahoo.com.cn";

Pattern pattern = Pattern.compile("[//w//.//-]+@([//w//-]+//.)+[//w//-]+",Pattern.CASE_INSENSITIVE);

Matcher matcher = pattern.matcher(str);

System.out.println(matcher.matches());

◆去除html标记

Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL);

Matcher matcher = pattern.matcher("<a href=/"index.html/">主页</a>");

String string = matcher.replaceAll("");

System.out.println(string);

◆查找html中对应条件字符串

Pattern pattern = Pattern.compile("href=/"(.+?)/"");

Matcher matcher = pattern.matcher("<a href=/"index.html/">主页</a>");

if(matcher.find())

  System.out.println(matcher.group(1));

}
 

  String regex="(\\d{1,3})\\.\\[([a-z]{3})\\]";

  Pattern pattern=Pattern.compile(regex);

  Matcher matcher=pattern.matcher("1234.[abc]sss");

//  Pattern pattern = Pattern.compile("href=\"(.+?)\"");

//  Matcher matcher = pattern.matcher("<a href=\"index.html\">主页</a>");

  if(matcher.find()){

    System.out.println(matcher.group(0));

    System.out.println(matcher.group(1));

    System.out.println(matcher.group(2));

  }
◆截取http://地址

//截取url

Pattern pattern = Pattern.compile("(http://|https://){1}[//w//.//-/:]+");

Matcher matcher = pattern.matcher("dsdsds<http://dsds//gfgffdfd>fdf");

StringBuffer buffer = new StringBuffer();

while(matcher.find()){             

    buffer.append(matcher.group());       

    buffer.append("/r/n");             

System.out.println(buffer.toString());

}

       

◆替换指定{}中文字

String str = "Java目前的发展史是由{0}年-{1}年";

String[][] object={new String[]{"//{0//}","1995"},new String[]{"//{1//}","2007"}};

System.out.println(replace(str,object));

public static String replace(final String sourceString,Object[] object) {

            String temp=sourceString;   

            for(int i=0;i<object.length;i++){

                      String[] result=(String[])object[i];

               Pattern    pattern = Pattern.compile(result[0]);

               Matcher matcher = pattern.matcher(temp);

               temp=matcher.replaceAll(result[1]);

            }

            return temp;

}

◆以正则条件查询指定目录下文件

 //用于缓存文件列表

        private ArrayList files = new ArrayList();

        //用于承载文件路径

        private String _path;

        //用于承载未合并的正则公式

        private String _regexp;

       

        class MyFileFilter implements FileFilter {

              /**

               * 匹配文件名称

               */

              public boolean accept(File file) {

                try {

                  Pattern pattern = Pattern.compile(_regexp);

                  Matcher match = pattern.matcher(file.getName());               

                  return match.matches();

                } catch (Exception e) {

                  return true;

                }

              }

            }

       

        /**

         * 解析输入流

         * @param inputs

         */

        FilesAnalyze (String path,String regexp){

            getFileName(path,regexp);

        }

       

        /**

         * 分析文件名并加入files

         * @param input

         */

        private void getFileName(String path,String regexp) {

            //目录

              _path=path;

              _regexp=regexp;

              File directory = new File(_path);

              File[] filesFile = directory.listFiles(new MyFileFilter());

              if (filesFile == null) return;

              for (int j = 0; j < filesFile.length; j++) {

                files.add(filesFile[j]);

              }

              return;

            }

   

        /**

         * 显示输出信息

         * @param out

         */

        public void print (PrintStream out) {

            Iterator elements = files.iterator();

            while (elements.hasNext()) {

                File file=(File) elements.next();

                    out.println(file.getPath());   

            }

        }

        public static void output(String path,String regexp) {

            FilesAnalyze fileGroup1 = new FilesAnalyze(path,regexp);

            fileGroup1.print(System.out);

        }

   

        public static void main (String[] args) {

            output("C://","[A-z|.]*");

        }

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  java 正则表达式