数据分析之Pandas-03多行索引和数据处理
2017-10-28 21:46
302 查看
01-多层行索引
进行切片,有些汉字出问题,有些没问题02-Pandas数据处理
删除重复元素
df = DataFrame({'color':['white','white','red','red','white'], 'value':[2,1,3,3,2]}) display(df,df.duplicated(),df.drop_duplicates())
映射
replace()函数:替换元素,map()函数:新建一列!!!map中返回的数据是一个具体值,不能迭代
rename()函数:替换索引
异常值检测和过滤
使用describe()函数查看每一列的描述性统计量。使用std()函数可以求得DataFrame对象每一列的标准差。
根据每一列的标准差,对DataFrame元素进行过滤。
借助any()函数,对每一列应用筛选条件
排序
使用.take()函数排序可以借助np.random.permutation()函数随机排序
随机抽样
当DataFrame规模足够大时,直接使用np.random.randint()函数,就配合take()函数实现随机抽样
练习:
创建DataFrame:张三李四王老五的期中考试成绩,对着三名同学随机排序
初级数据聚合
数据分类处理的核心: groupby()函数高级数据聚合
可以使用pd.merge()函数包聚合操作的计算结果添加到df的每一行。可以使用transform和apply实现相同功能。
相关文章推荐
- Python 数据分析之Pandas and Numpy (数据类型的介绍和数据处理的常用运算)
- 利用Pandas进行数据分析(3)——统计、处理缺失值、层次化索引
- python/pandas数据分析(十六)- 数据索引与选取
- python/pandas/numpy数据分析(十)-函数, rank,重复索引
- 数据分析之Pandas(二):索引、过滤 、算术运算、 函数应用和映射
- 数据分析之Pandas(一):Series、DataFrame基本操作及索引对象
- 利用Python进行数据分析(11) pandas基础: 层次化索引
- 数据分析之Pandas-02多层次化索引和拼接
- Python数据分析:pandas中Dataframe的groupby与索引
- 利用Python进行数据分析(11) pandas基础: 层次化索引
- 数据分析之pandas教程------数据处理
- Pandas学习(二)——双色球开奖数据分析
- 动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题
- 【Python数据分析】pandas数据结构简介
- pandas数据的索引操作
- Python 数据分析包:pandas 基础
- python - 利用Pandas对某app数据进行整理、分析并存入mongodb
- python/pandas/numpy数据分析(十一)-相关系数与协方差
- Python 数据分析:pandas 操作基础篇
- 使用Logstash + Elasticsearch作为大数据索引、分析工具