在pandas中,使用frame.drop_duplicates(['state'])去掉多属性数据中重复行
2017-11-09 15:18
666 查看
python中的pandas模块中对重复数据去重步骤:
1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;
2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。
注释:
如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。
具体实例如下:
[plain] view
plain copy
>>> import pandas as pd
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']}
>>> frame=pd.DataFrame(data)
>>> frame
pop state
0 a 1
1 b 1
2 c 2
3 d 2
>>> IsDuplicated=frame.duplicated()
>>> print IsDuplicated
0 False
1 False
2 False
3 False
dtype: bool
>>> frame=frame.drop_duplicates(['state'])
>>> frame
pop state
0 a 1
2 c 2
>>> IsDuplicated=frame.duplicated(['state'])
>>> print IsDuplicated
0 False
2 False
dtype: bool
>>>
1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;
2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。
注释:
如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。
具体实例如下:
[plain] view
plain copy
>>> import pandas as pd
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']}
>>> frame=pd.DataFrame(data)
>>> frame
pop state
0 a 1
1 b 1
2 c 2
3 d 2
>>> IsDuplicated=frame.duplicated()
>>> print IsDuplicated
0 False
1 False
2 False
3 False
dtype: bool
>>> frame=frame.drop_duplicates(['state'])
>>> frame
pop state
0 a 1
2 c 2
>>> IsDuplicated=frame.duplicated(['state'])
>>> print IsDuplicated
0 False
2 False
dtype: bool
>>>
相关文章推荐
- pandas 取出dataframe中重复的数据(关于某字段),即去掉不重复的数据
- 使用pandas中的DataFrame数据绘制柱状图
- 使用C#去掉10万级数组中重复的数据
- python pandas中series与dataframe数据类型属性及操作基础
- pandas dataframe 做机器学习训练数据=》直接使用iloc或者as_matrix即可
- 使用pandas中的DataFrame数据绘制柱状图的方法
- Linq使用Distinct删除重复数据时如何指定所要依据的成员属性zz
- pandas.DataFrame.drop_duplicates后面inplace=True与inplace=False的区别
- Pandas之drop_duplicates:去除重复项
- 使用C#去掉10万级数组中重复的数据
- mysql导入导出数据中文乱码解决方法小结(1、navicat导入问题已解决,创建连接后修改连接属性,选择高级->将使用Mysql字符集复选框去掉,下拉框选择GBK->导入sql文件OK;2、phpmyadmin显示乱码的问题也解决,两步:1.将sql文件以utf8的字符集编码另存,2.将文件中sql语句中的字段字符集编码改成utf8,导入OK)
- pandas.DataFrame.drop_duplicates后面inplace=True与inplace=False的区别
- 使用sqlalchemy包将pandas的DataFrame数据写入MySQL数据库
- msqlserver 千万级别单表数据去掉重复记录使用临时表
- Effective C# 原则1:尽可能的使用属性(property),而不是数据成员(field)。
- 在数组中去掉重复数据
- 条款1:使用属性代替可访问的数据成员
- Oracle 使用一条语句删除重复数据
- 去掉数组中重复的数据
- 使用awk去掉重复的单词