您的位置:首页 > 编程语言 > Python开发

Pandas数据特征分析

2017-07-17 10:32 239 查看

Pandas数据特征分析



 

数据的排序

.sort_index()方法在指定轴上根据索引进行排序,默认升序。默认0轴升序:.sort_index(axis=0, ascending=True)。





.sort_values()方法在指定轴上根据数值进行排序,默认升序。

Series.sort_values(axis=0, ascending=True)

DataFrame.sort_values(by, axis=0, ascending=True)

by : axis轴上的某个索引或索引列表。



NaN统一放到排序末尾



 

数据的基本统计分析

基本的统计分析函数:适用于Series和DataFrame类型数据

方法
说明
.sum()
计算数据的总和,按0轴计算,下同
.count()
非NaN值的数量
.mean()   .median()
计算数据的算术平均值、算术中位数
.var()  .std()
计算数据的方差、标准差
.min() .max()
计算数据的最小值、最大值
.describe()
针对0轴(各列)的统计汇总
 
适用于Series类型

方法
说明
.argmin()  .argmax()

计算数据最大值、最小值所在位置的索引位置(自动索引)

.idxmin()  .idxmax()

计算数据最大值、最小值所在位置的索引位置(自定义索引)

 


 



数据的累计统计分析

累计统计分析函数:适用于Series和DataFrame类型,累计计算

方法
说明
.cumsum()
依次给出前1、2、…、n个数的和
.cumprod()
依次给出前1、2、…、n个数的积
.cummax()
依次给出前1、2、…、n个数的最大值
.cummin()
依次给出前1、2、…、n个数的最小值
 


累计统计分析函数:适用于Series和DataFrame类型,滚动计算(窗口计算)

方法
说明
.rolling(w).sum()
依次计算相邻w个元素的和
.rolling(w).mean()
依次计算相邻w个元素的算术平均值
.rolling(w).var()
依次计算相邻w个元素的方差
.rolling(w).std()
依次计算相邻w个元素的标准差
.rolling(w).min() .max()
依次计算相邻w个元素的最小值和最大值


 

数据的相关性分析

两个事物,表示为X和Y,如何判断它们之间的存在相关性?

相关性:

• X增大,Y增大,两个变量正相关

• X增大,Y减小,两个变量负相关

• X增大,Y无视,两个变量不相关

 

协方差:


•协方差>0, X和Y正相关

•协方差<0, X和Y负相关

•协方差=0, X和Y独立无关

 

Person相关系数:


R的取值范围为[-1, 1]

• 0.8‐1.0 极强相关

• 0.6‐0.8 强相关

• 0.4‐0.6 中等程度相关

• 0.2‐0.4 弱相关

• 0.0‐0.2 极弱相关或无相关

 

相关性分析函数:适用于Series和DataFrame类型

方法
说明
.cov()
计算协方差矩阵
.corr()
计算相关系数矩阵, Pearson、Spearman、Kendall等系数
 

小结:




内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息