您的位置:首页 > 编程语言 > Python开发

如何用Python Pandas以及正则表达式提取地址中的省份

2017-08-25 13:52 746 查看
如题。

假设数据在data数据框中,列名为"地址"。

#筛选含省份的字段

data[data['地址'].str.match('.+省']['地址'].str.extract('(.+[省])',expand=True)

#去掉省份前特殊字符的样本

data1=data.iloc[:,0].str.replace('.+(号|镇|街|路|乡|道|村|巷|侧|\d|()',‘’)

#去掉字符长度不满足要求的省份

data2=data[np.where(data1.str.len()>2,np.where(data1.str.len()<5,True,False),False)]

#去掉空格

data2=data2.map(str.strip)

#与省份的表做比对,去掉不符合的省份

#用join和原来的表做拼接
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息