您的位置：首页 > 编程语言 > Python开发

python 正则表达式

2016-06-21 17:41 441 查看

正则表达式内嵌在python中，并通过re模块实现

使用范围：

1，可以为想要匹配的相应字符串集指定规则

2，该字符串集可能包括英文语句，e-mail地址，命令，或任何你想要的东西

3，可以访问诸如‘这个字符串匹配该模式’

4，‘在这个字符串中是否有部分匹配该模式’

5，你也可以使用RE以各种方式来修改或分割字符串

字符匹配：

普通字符

元字符：. ^ $ * + ? {} [] \ | ()

[ ] 常用来指定一个字符集：[abc][a-z]

元字符在字符集中不起作用：[akm$]

补集匹配不在区间范围内的字符：[^5]

^ 匹配行首。除非设置MULTILINE标准，他只是匹配字符串的开始。在MULTILINE模式里，他也可以直接匹配字符串的每个换行

$ 匹配行尾，行尾被定义为要么是字符串，要么是一个换行字符后面的任何位置

定义正则表达式的字符串通常加r，例：s = r'abc'

例：

import re

s=r'abc'

re.findall(s,'abcsfasdfsdfabcsdfdf')

结果：['abc','abc']

st = 'top tip tapd df afdf sdf'

str = r't[io]p' #表示有i或者o

re.findall(str,st)

结果：['top','tip']

st = 'top tip twp tcp'

str = r't[^io]p #^表示取反

re.findall(str,st)

结果：['twp','tcp']

\ 转义字符

反斜杠后面可以加不同的字符以表示不同特殊意义

也可以用于取消所有的元字符：\[ 或\\

\d匹配任何十进制数，相当于[0-9]

\D匹配任何非数字字符，相当于[^0-9]

\s匹配任何空白字符，相当于[\t\n\r\f\v]

\S匹配任何非空白字符，想当于[^\t\n\r\f\v]

\w匹配任何字母数字；相当于[a-zA-Z0-9]

\W匹配任何非字母数字字符，相当于[^a-zA-Z0-9]

* 指定前一个字符可以被匹配0次或更多次，而不是只有一次，匹配引擎会试着重复尽可能多的次数

例：

r = r'010-\d{8}'
#等同于r = '010-\d\d\d\d\d\d\d\d'

re.findall(r,'010-23452134')

r=r'ab*'

re.findall(r,'abbbb')

结果：abbbb

+ 表示匹配一次或多次

注意：*和+之间的不同：*匹配0次或多次，所以可以根本就不出现，而+则要求至少要出现一次

例：

r = r'ab+'

re.findall(r,'a')
#结果为[]，而使用r = r'ab*' re.findall(r,'a')
结果为['a']

? 匹配一次或0次；你可以认为它用于标识某事物是可选的

例：r = r'010-?\d{8}'

re.findall(r,'01023453432')

结果为：01023453432

{m,n}

其中m和n是10进制整数，该限定符的意思是至少有m个重复，至多有n个重复

忽略m会认为下边界是0，而忽略上边界为无穷大

{0, }等同与* ，{1，}等同于+，而{0,1}则与？相同，如果可以的话，最好使用*，+，或？

使用正则表达式

re模块提供了一个正则表达式引擎的接口，可以让你将REstring 编译成对象并用他们来进行匹配

编译正则表达式

#!python

import re

p = re.compile(ab*)

p.findall('ab')
#编译好直接使用和re.findall(p,'ab')一样

re.compile()也可以接受可选的标志着参数，常用来实现不同的特殊功能和语法变更

#!python

p = re.compile('ab*',re.IGNORECASE)

字符串前加‘r’反斜杠就不会被任何特殊方式处理

\section 要匹配的字符串

\\section 为re.compile取消反斜杠的特殊意义

\\\\section 为 “\\section”的字符串实值（string literals）取消反斜杠的特殊意思义

例：csvt_re = re.compile(r'csvt',re.I)
#也可以匹配大写

csvt_re.findall('CSVT')

结果：CSVT

执行匹配：

‘RegexObject’实例有一些方法和属性完整的列表可查阅Python Library Reference

match()
决定RE是否在字符串刚开始的位置匹配

search() 扫描字符串，找到这个RE匹配的位置

finditer() 找到RE匹配的所有子串，并把他们做为一个迭代器返回

findall()
找到RE匹配的所有子串，并把他们作为一个列表返回

如果没有匹配到的话，match()和search()将返回None。如果成功的话，就会返回一个实例

group()
返回被RE匹配的字符串

start（）返回匹配开始的位置

end()返回一个元组包含匹配（开始，结束）位置

实际程序中，最常见的做法是讲‘MatchObject’保存到一个变量中，然后检查是否为None

例：

p = re.compile(...)

m = p.match('string goes here')

if m:

print 'Match found:',m.group()

else:

print'No match'

sub() 替换re.sub('要替换的字符串'，‘使用替换的字符串’，‘原字符串’，count = 0)

split() 切割

编译标志--flags

DOTALL, S
使用 . 匹配包括换行在内的所有字符串

IGNORECASE
I 使用匹配对大小写不敏感

LOCALE L
做本地化标识

分组：（和）

例：

email = r'\w{3}@\w+(\.com|\.cn)'
#如果使用（）表示|（或）的范围

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航