您的位置:首页 > 其它

正则表达式(以后遇见不同的,会新增)

2017-08-18 10:10 197 查看
import re
from HTMLParser import HTMLParser

ss = """<li class="oneline"><strong>工商注册号:</strong>110000400123587</li>
<li class="oneline"><strong>法定代表人:</strong>马一兵</li>
<li class="oneline"><strong>企业类型:</strong>外国企业常驻代表机构</li>
<li class="oneline"><strong>住所:</strong>北京市东城区东长安街1号东方广场东方经贸城西一办公楼二层7室</li>
<li class="oneline"><strong>成立日期:</strong>2003/06/2000:00:00.000</li>
<li class="oneline"><strong>登记机关:</strong>北京市工商行政管理局</li>
<li class="oneline"><strong>有效时间:</strong>20170810 </li>
<li class="oneline"><strong>统一社会信用代码:</strong>91110000752150853R </li>
"""

model = re.compile(r'<strong>(.*?)</strong>(.*?)</li>')

dataList = re.findall(model,ss)

for data in dataList:
print HTMLParser().unescape(data[0]),HTMLParser().unescape(data[1])


这里最重要的就是(.*?)中的问号,表示非贪恋模式,就是最短匹配。不然会匹配越界,导致效果不是自己想要的。

结果图:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  正则表达式
相关文章推荐