您的位置:首页 > 编程语言 > Python开发

正则表达式的学习笔记

2017-05-13 19:15 169 查看
正则表达式:
\d 匹配一个数字

\w 匹配一个字母或者数字

\s 匹配一个空格

. 匹配任意字符

* 匹配任意个数字符,包括0个

?匹配0个或1个字符

+ 匹配至少一个字符

{n} 匹配n个字符

{n,m} 匹配n到m个字符

特殊字符要用'\'转义

例子:\d{3}\s+\d{3,8}
表示匹配
010 45613278
456  78945612
...

\d{3}\-\d{3,8}
表示匹配
010-12345678

[]表示范围

{2}表示重复次数
{0,9}0-9次

可以匹配一个数字字母或者下划线
[0-9a-zA-Z\_]
可以匹配至少由一个数字字母或者下划线组成的字符串
[0-9a-zA-Z\_]
可以匹配由字母或下划线开头,后接任意个(可以为0)由一个数字、字母或者下划线组成的字符串
[a-zA-Z\_][0-9a-zA-Z\_]*
在上面的基础上添加字数限制即20个字符
[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}

A|B匹配A或B

^表示行的开头

表示出了abc之外
[^abc]

$表示行的结束

re模块
import re
表示判断正则表达式是否匹配,匹配成功则返回一个match对象,否则返回None
re.match(r'\d{3}\d{3,8}$','010-12345')

切分字符串
'a b  c'.split(' ')

加上正则表达式可以识别连续空格
'a b  c'.split(r'\s+','a b  c')

也可以分割逗号
re.split(r'[\s\,]+', 'a,b, c  d')

也可以识别分号
re.split(r'[\s\,\;]+', 'a,b;; c  d')

用group提取字串:
m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
m.group(0)
'010-12345'
m.group(1)
'010'
m.group(2)
'12345'
在提取的结果之中,group(0)永远表示提取的元字符串,之后的group(1)...表示字串

贪婪匹配,即默认情况下匹配尽可能多的字符,下例中\d+即贪婪模式
re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

非贪婪匹配,后面加?
re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

使用编译后的正则表达式对象来提高速率
import re
# 编译
re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用:
re_telephone.match('010-12345').groups()
('010', '12345')
re_telephone.match('010-8086').groups()
('010', '8086')

第二个参数表示大小写都可以
re_csvt = re.compile(r'csvt',re.I)

findall ,search ,match的区别
比如
str = ’cabcabc abc'
import re
a = r'cabcabc abc'
re.match(a,str)
结果为none
match
match 尝试从字符串的起始位置匹配一个模式,匹配成功则返回对象,否则返回none
match.group()返回匹配对象

re.findall(a,str)
结果为['abc','abc','abc']
扫描整个字符串把所有符合的结果以列表的形式呈现出来

re.finditer返回一个迭代器对象

保留反斜杠字符:
re.findall(r'csvt.net',s,re.S)

re.search(a,str)
结果为:
<_sre.SRE_Match object at 0x0086FA30>
>>> p = re.search(a,'cabcabc abc')
>>> p.group(0)
'abc'
扫描整个字符串并返回第一个成功的匹配的对象,否则为none

匹配以下email地址:
someone@gmail.com
bill.gates@microsoft.com

r'^(\w+\.?\w+)@(\w+\.\w+)$'
?表示重复前面\w\.0次或者1次,即可有可无

替换方法sub
rs = r'c..t'
rs.sub(rs,'python','csvt cdgt cmyt cccc')
>>>'python pyhton python cccc'

显示替换次数
rs.subn(rs,'python','csvt cdgt cmyt cccc',3)
>>>'python pyhton python cccc'

对于多行字符串
re.findall(r,s,re.M)

对于多行的正则
re.findall(r,s,re.X)

括号分组,优先返回括号里的值
r1 = r"hello src=(.+) yes"
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 正则表达式