您的位置:首页 > 其它

pandas处理数据加载、存储

2016-11-12 21:32 218 查看
pandas 中的解析函数

read_csv   #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
---------------------------------------------------------------------
read_table    #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符"\t"
---------------------------------------------------------------------
read_fwf   #读取定宽格式数据(也就是说,没有分隔符)
---------------------------------------------------------------------
read_clipboard    #读取剪贴板中的数据,可以看做read_table的剪贴板版。在将网页转换为表格时很有用。


read_csv/read_table 函数的参数

---------------------------------------------------------------------
path     #表示文件系统位置,URL、文件型对象的字符串
---------------------------------------------------------------------
sep或delimiter   #用于对行中各字段进行拆分的字符序列或正则表达式
---------------------------------------------------------------------
header     #用作行名的行号。默认为0(第一行),如果没有header行就应该设置为None
---------------------------------------------------------------------
index_col   #用作行索引的列编号或列名。可以是单个名称/数字或由多个名称/数字组成的列表(层次化索引)
---------------------------------------------------------------------
names    #用于结果的列名列表,结合header=None
---------------------------------------------------------------------
skiprows    #需要忽略的行数(从文件开始处算起),或需要跳过的行号列表(从0开始)
---------------------------------------------------------------------
na_values   #一组用于替换NA的值,常以字典形式给出
---------------------------------------------------------------------
comment    #用于将注释信息从行尾拆分出去的字符(一个或多个)
---------------------------------------------------------------------
parse_dates   #尝试将数据解析为日期,默认为False。如果为True,则尝试解析所有列。此外,还可以指定需要解析的一组列号或列名。如果列表的元素为列表或元组,就会将多个列组合到一起再进行日期解析工作(例如:日期/时间分别位于两个列中)
---------------------------------------------------------------------
keep_date_col   #如果连接多列解析日期,则保持参与连接的列。默认为False
---------------------------------------------------------------------
converters   #由列号/列名跟函数之间的映射关系组成的字典。如:{'foo':f}会对foo列的所有值应用函数f
---------------------------------------------------------------------
dayfirst   #当解析所有歧义的日期时,将其看做国际格式(如:7/6/2012--June 7,2012),默认为False
---------------------------------------------------------------------
date_parser  #用于解析日期的函数
---------------------------------------------------------------------
nrows   #需要读取的行数(从文件开始处算起)
---------------------------------------------------------------------
iterator    #返回一个TextParser以便逐块读取文件
---------------------------------------------------------------------
chunksize   #文件块的大小(用于迭代)
---------------------------------------------------------------------
skip_footer   #需要忽略的行数(从文件末尾处算起)
---------------------------------------------------------------------
verbose   #打印各种解析器输出信息,比如“非数值列中缺失值的数量”
---------------------------------------------------------------------
encoding   #用于unicode文本的文件编码格式,例如“utf-8”表示用UTF-8编码的文本
---------------------------------------------------------------------
squeeze   #如果数据经解析后仅含一行,返回Series
---------------------------------------------------------------------
thousands    #千分位分隔符,如“,”或“.”
---------------------------------------------------------------
error_bad_lines=False    #默认为True,舍弃不规范的值,预防出错
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: