您的位置：首页 > 其它

pandas处理数据加载、存储

2016-11-12 21:32 218 查看

pandas 中的解析函数

read_csv   #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
---------------------------------------------------------------------
read_table    #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符"\t"
---------------------------------------------------------------------
read_fwf   #读取定宽格式数据（也就是说，没有分隔符）
---------------------------------------------------------------------
read_clipboard    #读取剪贴板中的数据，可以看做read_table的剪贴板版。在将网页转换为表格时很有用。

read_csv/read_table 函数的参数

---------------------------------------------------------------------
path     #表示文件系统位置，URL、文件型对象的字符串
---------------------------------------------------------------------
sep或delimiter   #用于对行中各字段进行拆分的字符序列或正则表达式
---------------------------------------------------------------------
header     #用作行名的行号。默认为0（第一行），如果没有header行就应该设置为None
---------------------------------------------------------------------
index_col   #用作行索引的列编号或列名。可以是单个名称/数字或由多个名称/数字组成的列表（层次化索引）
---------------------------------------------------------------------
names    #用于结果的列名列表，结合header=None
---------------------------------------------------------------------
skiprows    #需要忽略的行数（从文件开始处算起），或需要跳过的行号列表（从0开始）
---------------------------------------------------------------------
na_values   #一组用于替换NA的值，常以字典形式给出
---------------------------------------------------------------------
comment    #用于将注释信息从行尾拆分出去的字符（一个或多个）
---------------------------------------------------------------------
parse_dates   #尝试将数据解析为日期，默认为False。如果为True，则尝试解析所有列。此外，还可以指定需要解析的一组列号或列名。如果列表的元素为列表或元组，就会将多个列组合到一起再进行日期解析工作（例如：日期/时间分别位于两个列中）
---------------------------------------------------------------------
keep_date_col   #如果连接多列解析日期，则保持参与连接的列。默认为False
---------------------------------------------------------------------
converters   #由列号/列名跟函数之间的映射关系组成的字典。如：{'foo':f}会对foo列的所有值应用函数f
---------------------------------------------------------------------
dayfirst   #当解析所有歧义的日期时，将其看做国际格式（如：7/6/2012--June 7,2012）,默认为False
---------------------------------------------------------------------
date_parser  #用于解析日期的函数
---------------------------------------------------------------------
nrows   #需要读取的行数（从文件开始处算起）
---------------------------------------------------------------------
iterator    #返回一个TextParser以便逐块读取文件
---------------------------------------------------------------------
chunksize   #文件块的大小（用于迭代）
---------------------------------------------------------------------
skip_footer   #需要忽略的行数（从文件末尾处算起）
---------------------------------------------------------------------
verbose   #打印各种解析器输出信息，比如“非数值列中缺失值的数量”
---------------------------------------------------------------------
encoding   #用于unicode文本的文件编码格式，例如“utf-8”表示用UTF-8编码的文本
---------------------------------------------------------------------
squeeze   #如果数据经解析后仅含一行，返回Series
---------------------------------------------------------------------
thousands    #千分位分隔符，如“，”或“.”
---------------------------------------------------------------
error_bad_lines=False    #默认为True，舍弃不规范的值，预防出错

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航