您的位置:首页 > 编程语言 > Python开发

python查找/删除重复记录

2017-12-09 10:37 363 查看
1:查找重复项

df.duplicated()返回的是一个布尔型Series(返回值是True或者False),表示各行是否是重复行,可以在()内添加列名来查找某一列是否有重复值,第一个出现的值为False,后边再出现相同的行为True

完全重复的项目 df.duplicated()  /  某一列重复df.duplicated('列名')

aa = [[1,2,3],[4,5,6],[1,2,3],[1,2,1]]  

index = [0,1,2,3]  

columns=['a','b','c']  

df = pd.DataFrame(data=aa, index=index, columns=columns)  

 abc
0123
1456
2123
3121
df.duplicated()

0    False
1    False
2     True
3    False
dtype: bool


df.duplicated('a') 

0    False
1    False
2     True
3     True
dtype: bool


查看重复的数量,返回结果为True都是前面出现过的

volume_summery[volume_summery.duplicated('order_item_id')==True].shape

2:删除重复项

df.drop_duplicates()删除完全重复的项,返回不重复的项目

 abc
0123
1456
3121
df.drop_duplicates(['列名']) 以该列为标准,删除重复的项目,返回不重复的项目

 abc
0123
1456
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python