笨办法学 Python · 续 练习 31:正则表达式
2017-08-12 17:05
393 查看
练习 31:正则表达式
原文:Exercise 31: Regular Expressions译者:飞龙
协议:CC BY-NC-SA 4.0
自豪地采用谷歌翻译
正则表达式(RegEx)是一种简洁的方式,用于确定字符序列应如何在字符串中匹配。通常大家都认为它们是“可怕”的,但是,正如你所知道的,任何包含在恐惧中的东西通常都不是这样。正则表达式的事实是,它们是大约八个符号的集合,告诉计算机如何匹配模式串。简单来说,他们很容易理解。人们遇到困难的地方是,尝试使用难以置信的复杂的正则表达式,其中解析器实际上会更好。一旦你明白了这八个符号和正则表达式的限制,你就会看到它们根本不可怕。
我打算让你记忆更多东西,使你的的大脑为讨论做好准备。
^
锚定字符串开头。只有字符串刚好位于开头,它才会匹配。
$
锚定字符串末尾。只有字符串到达了末尾,它才会匹配。
.
任何单个字符。接受任何单个字符的输入。
?
正则表达式的之前的部分是可选的,所以
A?的意思是可选的字符
A。
*
之前的部分是零个或多个(任意个)。选取正则表达式的之前的部分,重复接受或者跳过它。
A*会接受
"AAAAAAA"或者
"BQEFT",因为它里面有零个
A。
+
之前的部分是一个或多个(至少一个)。和
*类似,但是只接受一个或多个这种字符。
A+会匹配
"AAAAAAA",但不是
"BQEFT"。
[X-Y]
X到
Y的字符范围,接受任何范围中列出的字符串。
[A-Z]表示所有大写英文字母。许多常见字符范围拥有
\快捷方式,你可以使用它来代替。
()
捕获这个正则表达式的部分,便于稍后使用。许多正则表达式库将其用于替换、提取或修改文本。捕获会选取正则表达式的
()中的部分,并保存它便于以后使用。之后许多库可以让你引用这些捕获。如果你使用
([A-Z]+),它会捕获一个或多个大写英文单词。
Python 的
re库列出了一些更多的符号,但大多都是这八个的一些修饰符,或者不在正则表达式库中经常发现的额外功能。你将快速记住这八个来起步,重点是粗体的部分(锚定末尾,之前部分可选),以便你可以快速回忆它们并解释他们的作用。
记住这些符号后,请查看以下正则表达式并将其翻译成中文,并使用 Python
re库来尝试列出的字符串,或你可以想到的任何其他字符串。
".*BC?$"
helloBC,
helloB,
helloA,
helloBCX
"[A-Za-z][0-9]+"
A1232344,
abc1234,
12345,
b493034
"^[0-9]?a*b?.$"
0aaaax,
aaab9,
9x,
88aabb,
9zzzz
"A+B+C+[xyz]*"
AAAABBCCCCCCxyxyz,
ABBBBCCCxxxx,
ABABABxxxx
一旦你翻译了它们,使用Python
re模块,尝试在 Shell 中尝试它们,如下:
>>> import re >>> m = re.match(r".*BC?$", "helloB").span() >>> re.match(r".*BC?$", "helloB").span() (0, 6) >>> re.match(r"[A-Za-z][0-9]+", "A1232344").span() (0, 8) >>> re.match(r"[A-Za-z][0-9]+", "abc1234").span() Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: 'NoneType' object has no attribute 'span' >>> re.match(r"[A-Za-z][0-9]+", "1234").span() Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: 'NoneType' object has no attribute 'span' >>> re.match(r"[A-Za-z][0-9]+", "b493034").span() (0, 7) >>>
对于任何不匹配,你会得到
AttributeError: 'NoneType',因为当你的正则表达式不匹配时,
re.match函数返回
None。
挑战练习
挑战是尝试使用你的 FSM 模块来实现一个简单的正则表达式,至少执行三个操作。这将是一个困难的挑战,但使用 Pythonre库来帮助你规划和测试此正则表达式的实现。然后,一旦你知道如何实现它,永远不要这样做了。人生苦短,不要做计算机已经擅长的事情。
研究性学习
扩展你的记忆,来包括 Pythonre库文档中的所有可能的符号。
如果你想要匹配一个
*字符,那么你可以用
\*来转义它。大多数其他符号也有类似的东西。
确保你知道如何使用
re.ASCII,因为某些解析的需求需要它。
深入学习
看看regex库,如果你需要 Unicode 支持,那么这个更好。
相关文章推荐
- Python 正则表达式练习
- Dave Python 练习十七 -- 正则表达式
- python类库31[正则表达式匹配实例]
- Dave Python 练习十七 -- 正则表达式
- Python网页抓取正则表达式应用练习-爬取基金信息
- python类库31[正则表达式]
- python类库31[正则表达式匹配实例]
- Dave Python 练习十七 -- 正则表达式
- 使用正则表达式替换文件内容 分类: python 小练习 2013-08-13 15:07 332人阅读 评论(0) 收藏
- Dave Python 练习十七 -- 正则表达式
- python类库31[正则表达式之sub]
- python 正则表达式练习
- python正则表达式练习篇
- 模拟登陆CSDN -- Python爬虫练习之正则表达式和cookie
- Python标准库__正则表达式练习
- python学习之正则表达式练习:编写一个计算器
- Python正则表达式练习
- Python练习代码 -- 字符串和正则表达式, 文件文件夹操作
- python正则表达式练习篇2
- python 正则表达式----练习题目