您的位置：首页 > 编程语言 > Python开发

python查找/删除重复记录

2017-12-09 10:37 363 查看

1：查找重复项

df.duplicated()返回的是一个布尔型Series（返回值是True或者False），表示各行是否是重复行，可以在（）内添加列名来查找某一列是否有重复值，第一个出现的值为False，后边再出现相同的行为True

完全重复的项目 df.duplicated() / 某一列重复df.duplicated('列名')

aa = [[1,2,3],[4,5,6],[1,2,3],[1,2,1]]

index = [0,1,2,3]

columns=['a','b','c']

df = pd.DataFrame(data=aa, index=index, columns=columns)


	a	b	c
0	1	2	3
1	4	5	6
2	1	2	3
3	1	2	1

df.duplicated()

0    False
1    False
2     True
3    False
dtype: bool

df.duplicated('a')

0    False
1    False
2     True
3     True
dtype: bool

查看重复的数量，返回结果为True都是前面出现过的

volume_summery[volume_summery.duplicated('order_item_id')==True].shape

2：删除重复项

df.drop_duplicates（）删除完全重复的项，返回不重复的项目


	a	b	c
0	1	2	3
1	4	5	6
3	1	2	1

df.drop_duplicates(['列名']) 以该列为标准，删除重复的项目，返回不重复的项目


	a	b	c
0	1	2	3
1	4	5	6

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python

相关文章推荐

新的分享

章节导航