您的位置:首页 > 编程语言 > Python开发

[Python]解决正则表达式的"贪婪"匹配

2014-07-22 23:04 1026 查看
我们看下面的匹配:

>>> str = 'Wed Feb 27 12:07:46 1985::zwcqrlu@zyifcxsleb.com::478325266-7-10'
>>> pat = '\d+-\d+-\d+'
>>> reg = re.compile(pat)
>>> reg.search(str).group()
'478325266-7-10'
如果把模式串换成下面并且用match()来匹配:

>>> pat2 = '.+\d+-\d+-\d+'
>>> reg2 = re.compile(pat2)
>>> reg2.match(str).group()
'Wed Feb 27 12:07:46 1985::zwcqrlu@zyifcxsleb.com::478325266-7-10'
而我们希望得到的是后面的那个478325266-7-10,所以模式串加进括号:

>>> pat3 = '.+(\d+-\d+-\d+)'
>>> reg3 = re.compile(pat3)
>>> reg3.match(str).group(1)
'6-7-10'
可以看到,匹配到的子组很短,这是因为正则表达式本身默认是贪心匹配的,即如果正则表达式模式中使用到通配字,那它按照从左到右的顺序求值时,会尽量“抓取”满足匹配的最长字符串。一个解决的办法是用"非贪婪"操作符"?"。这个操作符可以用在"*"、“+”或"?"的后面。它的作用是要求正则表达式引擎匹配的字符越少越好。因此,如果把“?”放在“.+”的后面,就可以得到想要的结果:

>>> pat4 = '.+?(\d+-\d+-\d+)'
>>> reg4 = re.compile(pat4)
>>> reg4.match(str).group(1)
'478325266-7-10'


REF:Core Python Programming
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐