pandas处理数据加载、存储
2016-11-12 21:32
218 查看
pandas 中的解析函数
read_csv/read_table 函数的参数
read_csv #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号 --------------------------------------------------------------------- read_table #从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符"\t" --------------------------------------------------------------------- read_fwf #读取定宽格式数据(也就是说,没有分隔符) --------------------------------------------------------------------- read_clipboard #读取剪贴板中的数据,可以看做read_table的剪贴板版。在将网页转换为表格时很有用。
read_csv/read_table 函数的参数
--------------------------------------------------------------------- path #表示文件系统位置,URL、文件型对象的字符串 --------------------------------------------------------------------- sep或delimiter #用于对行中各字段进行拆分的字符序列或正则表达式 --------------------------------------------------------------------- header #用作行名的行号。默认为0(第一行),如果没有header行就应该设置为None --------------------------------------------------------------------- index_col #用作行索引的列编号或列名。可以是单个名称/数字或由多个名称/数字组成的列表(层次化索引) --------------------------------------------------------------------- names #用于结果的列名列表,结合header=None --------------------------------------------------------------------- skiprows #需要忽略的行数(从文件开始处算起),或需要跳过的行号列表(从0开始) --------------------------------------------------------------------- na_values #一组用于替换NA的值,常以字典形式给出 --------------------------------------------------------------------- comment #用于将注释信息从行尾拆分出去的字符(一个或多个) --------------------------------------------------------------------- parse_dates #尝试将数据解析为日期,默认为False。如果为True,则尝试解析所有列。此外,还可以指定需要解析的一组列号或列名。如果列表的元素为列表或元组,就会将多个列组合到一起再进行日期解析工作(例如:日期/时间分别位于两个列中) --------------------------------------------------------------------- keep_date_col #如果连接多列解析日期,则保持参与连接的列。默认为False --------------------------------------------------------------------- converters #由列号/列名跟函数之间的映射关系组成的字典。如:{'foo':f}会对foo列的所有值应用函数f --------------------------------------------------------------------- dayfirst #当解析所有歧义的日期时,将其看做国际格式(如:7/6/2012--June 7,2012),默认为False --------------------------------------------------------------------- date_parser #用于解析日期的函数 --------------------------------------------------------------------- nrows #需要读取的行数(从文件开始处算起) --------------------------------------------------------------------- iterator #返回一个TextParser以便逐块读取文件 --------------------------------------------------------------------- chunksize #文件块的大小(用于迭代) --------------------------------------------------------------------- skip_footer #需要忽略的行数(从文件末尾处算起) --------------------------------------------------------------------- verbose #打印各种解析器输出信息,比如“非数值列中缺失值的数量” --------------------------------------------------------------------- encoding #用于unicode文本的文件编码格式,例如“utf-8”表示用UTF-8编码的文本 --------------------------------------------------------------------- squeeze #如果数据经解析后仅含一行,返回Series --------------------------------------------------------------------- thousands #千分位分隔符,如“,”或“.” --------------------------------------------------------------- error_bad_lines=False #默认为True,舍弃不规范的值,预防出错
相关文章推荐
- 利用二叉查找树处理数据-加载、存储、插入、删除、修改、输出
- Python之pandas数据加载、存储
- Python 数据分析(一) 本实验将学习 pandas 基础,数据加载、存储与文件格式,数据规整化,绘图和可视化的知识
- python多种格式数据加载、处理与存储
- Python之pandas数据加载、存储
- Python 数据分析(一) 本实验将学习 pandas 基础,数据加载、存储与文件格式,数据规整化,绘图和可视化的知识
- 使用Java来处理C++存储在数据库中的Blob数据。
- 业务是否有必要与数据存储分离,事务如何处理
- 使用数据2分处理的通用分页存储过程 前半部分与后半部分数据访问时间相同
- JDBC处理大数据(存储图像、声音、二进制)
- 数据加载与存储指令概述
- MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?
- Flex 3快速入门: 处理数据 使用 HTTPService 加载外部数据
- 修改数据的存储过程 带事务处理
- 数据加载与存储指令概述
- C++ builder 多进程串口2 数据的存储和处理。
- 修改数据的存储过程 带事务处理
- 能处理百万数据的存储过程
- EntityFramework 1.0 在查询中需要引用子表信息时的子表数据加载处理
- 数据加载及错误数据记录处理示例