您的位置：首页 > 其它

正则表达式(以后遇见不同的，会新增)

2017-08-18 10:10 197 查看

import re
from HTMLParser import HTMLParser

ss = """<li class="oneline"><strong>工商注册号：</strong>110000400123587</li><li class="oneline"><strong>法定代表人：</strong>马一兵</li><li class="oneline"><strong>企业类型：</strong>外国企业常驻代表机构</li><li class="oneline"><strong>住所：</strong>北京市东城区东长安街1号东方广场东方经贸城西一办公楼二层7室</li><li class="oneline"><strong>成立日期：</strong>2003/06/2000:00:00.000</li><li class="oneline"><strong>登记机关：</strong>北京市工商行政管理局</li><li class="oneline"><strong>有效时间：</strong>20170810 </li><li class="oneline"><strong>统一社会信用代码：</strong>91110000752150853R </li>"""

model = re.compile(r'<strong>(.*?)</strong>(.*?)</li>')

dataList = re.findall(model,ss)

for data in dataList:
print HTMLParser().unescape(data[0]),HTMLParser().unescape(data[1])

这里最重要的就是(.*?)中的问号，表示非贪恋模式，就是最短匹配。不然会匹配越界，导致效果不是自己想要的。

结果图：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 正则表达式

相关文章推荐

新的分享

章节导航