您的位置：首页 > 其它

正则表达式匹配任意字符（包括换行符）的写法

2016-07-16 18:59 585 查看

[\s\D]*    匹配换行和空格

   今天想使用正则表达式来获取一段文本中的任意字符。

于是很随意得就写出如下匹配规则： (.*) 结果运行之后才发现，无法获得换行之后的文本。

于是查了一下手册，才发现正则表达式中，“.”(点符号)匹配的是除了换行符“\n”以外的所有字符。同时，手册上还有一句话：要匹配包括 '\n' 在内的任何字符，请使用像 '[.\n]' 的模式。

      于是我将正则表达式的匹配规则修改如下： ([.\n]*)，当然，如果是在C#程序中直接写到话，需要改为([.\\n]*) 结果再次运行程序，发现什么内容也取不到了。

     我百思不得其解，又将其修改为如下规则： ([.|\n]*) 以及 (\n.]*) 结果还是不行，什么内容都取不到。看来点符号和换行符卯上劲了～然后上网一查，虽然没有查出上述规则到底是什么地方出问题了，但是查出了一个解决办法，经过一试，果然可以匹配包括换行符在内的任意字符，以下为正确的正则表达式匹配规则： ([\s\S]*) 同时，也可以用 “([\d\D]*)”、“([\w\W]*)” 来表示。

([\s\S]*?) 加上问号表示最短匹配

<h2>俗人1个</h2>

</a>

</div>

<div class="content">

小时候发生最离奇的一场车祸，我坐同学自行车，他带着我和对面骑自行车撞在了一起，我倒地下了，他却坐在了对面自行车的龙头上，还搂着人家的脖子

</div>

#coding=utf8

'''
Created on 2016年7月16日

@author: root
'''
import re
f=open('E:\\qiushibaike\\03\\page_1.html','r')
html=f.read()
p1=re.compile("<h2>.*</h2>")
m1=re.findall(p1,html)
p2=re.compile('<div class="content">[\s\S]*?</div>')
m2=re.findall(p2,html)
if m1:
for i in m1:
print i
if m2:
for i in m2:
print i

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航