如何用Python Pandas以及正则表达式提取地址中的省份
2017-08-25 13:52
746 查看
如题。
假设数据在data数据框中,列名为"地址"。
#筛选含省份的字段
data[data['地址'].str.match('.+省']['地址'].str.extract('(.+[省])',expand=True)
#去掉省份前特殊字符的样本
data1=data.iloc[:,0].str.replace('.+(号|镇|街|路|乡|道|村|巷|侧|\d|()',‘’)
#去掉字符长度不满足要求的省份
data2=data[np.where(data1.str.len()>2,np.where(data1.str.len()<5,True,False),False)]
#去掉空格
data2=data2.map(str.strip)
#与省份的表做比对,去掉不符合的省份
#用join和原来的表做拼接
假设数据在data数据框中,列名为"地址"。
#筛选含省份的字段
data[data['地址'].str.match('.+省']['地址'].str.extract('(.+[省])',expand=True)
#去掉省份前特殊字符的样本
data1=data.iloc[:,0].str.replace('.+(号|镇|街|路|乡|道|村|巷|侧|\d|()',‘’)
#去掉字符长度不满足要求的省份
data2=data[np.where(data1.str.len()>2,np.where(data1.str.len()<5,True,False),False)]
#去掉空格
data2=data2.map(str.strip)
#与省份的表做比对,去掉不符合的省份
#用join和原来的表做拼接
相关文章推荐
- javascript正则表达式提取指定的字符 分享如何随机播放采集的优酷视频地址
- 基于Python正则表达式提取搜索结果中的站点地址
- 基于Python正则表达式提取搜索结果中的站点地址
- PyCon 2011 - Hidden Treasures of the Python Standard Library - 邮件地址正则表达式匹配
- 【学习python】re 正则表达式匹配特定词性的conll,提取句子主干(主谓宾)
- 正则表达式提取图片地址
- Python 正则表达式,html标签 提取
- python 运用requests库 以及 正则表达式 爬取小说实例以及心得
- python利用正则表达式提取字符串
- Python 正则表达式提取URL中的Query
- Python 正则表达式提取URL中的Fragment
- 关于如何将文件内容提取(正则表达式)
- Python爬虫urllib2笔记(三)之使用正则表达式提取百度贴吧网页中的楼主发的图片
- XPath与正则表达式在文本数据提取时该如何选择?
- python常用正则表达式以及实践
- 正则表达式对邮件地址进行校验以及从一个字符串中匹配出一个格式正确的邮件地址
- C#中使用正则表达式提取超链接地址的集中方法
- ASP.NET正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例
- Python 正则表达式提取URL中的Path
- python使用正则表达式提取html标签