您的位置:首页 > 编程语言 > Python开发

python pandas库基础

2015-10-19 14:48 447 查看
pandas核心:Series和DataFrame分别对应一维的序列好二维的表结构

使用:

from pandas import Series,DataFrame

import pandas as pd

大部分一维数据都可以用来构造Series对象----Series包含index和values属性

例子

>s=Series([1,2,3,4,'abc'])

>s

0 1

1 2

2 3

3 4

4 abc

dtype:object

>s=Series(data=[1,2,3],index=['a','b',c])

>s

a 1

b 2

c 3

dtype:int64

>s.index

Index(['a','b','c'],dtype='object')

DataFrame是表格类型的数据结构

它含有一组有序的列(类似于 index),每列可以是不同的值类型(不像 ndarray

只能有一个 dtype)

基础语法:DataFrame(data=None,index=None,Columns=None)//index是索引,

columns是列名

例子

>data={'state':['a','b','c'],'year':[2013,2014,2015],'pop':[1,2,3]}

> data

{'state': ['a', 'b', 'c'], 'pop': [1, 2, 3], 'year': [2013, 2014, 2015]}

> df=DataFrame(data)

> df

pop state year

0 1 a 2013

1 2 b 2014

2 3 c 2015

> df=DataFrame(data,index=['one','two','three'],columns=

['year','state','pop','debt'])

> df

year state pop debt

one 2013 a 1 NaN

two 2014 b 2 NaN

three 2015 c 3 NaN //NAN表示缺失

pandas的一些统计方法:

count 非 NA 值的数量

describe 针对 Series 或 DF 的列计算汇总统计

min , max 最小值和最大值

argmin , argmax 最小值和最大值的索引位置(整数)

idxmin , idxmax 最小值和最大值的索引值

quantile 样本分位数(0 到 1)

sum 求和

mean 均值

median 中位数

mad 根据均值计算平均绝对离差

var 方差

std 标准差

skew 样本值的偏度(三阶矩)

kurt 样本值的峰度(四阶矩)

cumsum 样本值的累计和

cummin , cummax 样本值的累计最大值和累计最小值

cumprod 样本值的累计积

diff 计算一阶差分(对时间序列很有用)

pct_change 计算百分数变化
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: