openpyxl读取大文件的若干问题
2015-12-20 13:26
495 查看
需要编写一个EXCEL文件对比工具
excel文件通常8MB,300张左右的表,每张表实际范围为ZZ500.
使用openpyxl对表格进行遍历,完成两个表之间的对比,找出公式不相同的单元格
编程中遇到若干问题
1:读取时报错,错误代码忘记了,原因是通过数组的方式读取了一个不存在的数值.
如 SS['AA'],这个数值没有定义,因此报错(PHP直接返回空值),使用SS.get('AA',null)进行修改
D:\Python34\Lib\site-packages\openpyxl\reader\style.py
2:读取时内存占用过大.
基本就是内存占用了2G以上以后,程序就不动了,原因是某些表格的表格范围识别的非常大,最大可为ZZ65535
通过研究,代码进行了如下修改
1:使用X64版本,X64版本在运行时,可以运行4G以内内存占用的程序,比2G大一倍,能够完成大部分表格的读取,如ZZ5000,但是遇到ZZ65535范围的表格,内存占用达到了4G+,也会导致程序停止运行.
2:限制最大单元格遍历范围,最大限制为ZZ5000,能够有效降低内存占用
3:定时重新读取EXCEL文件(如每对比30张表),释放内存,(Python内存释放真的很痛苦,全部是指针引用,A=B,DEL A;是不会释放空间的,要DEL B才行).
4.虽然openpyxl读取文件时有个只读模式(性能模式),但是速度实在是太慢了.
通过代码修改,现在完成文件对比所用的内存通常在2G以内
excel文件通常8MB,300张左右的表,每张表实际范围为ZZ500.
使用openpyxl对表格进行遍历,完成两个表之间的对比,找出公式不相同的单元格
编程中遇到若干问题
1:读取时报错,错误代码忘记了,原因是通过数组的方式读取了一个不存在的数值.
如 SS['AA'],这个数值没有定义,因此报错(PHP直接返回空值),使用SS.get('AA',null)进行修改
D:\Python34\Lib\site-packages\openpyxl\reader\style.py
164: format_code = builtin_formats.get(numFmtId,'General')
2:读取时内存占用过大.
基本就是内存占用了2G以上以后,程序就不动了,原因是某些表格的表格范围识别的非常大,最大可为ZZ65535
通过研究,代码进行了如下修改
1:使用X64版本,X64版本在运行时,可以运行4G以内内存占用的程序,比2G大一倍,能够完成大部分表格的读取,如ZZ5000,但是遇到ZZ65535范围的表格,内存占用达到了4G+,也会导致程序停止运行.
2:限制最大单元格遍历范围,最大限制为ZZ5000,能够有效降低内存占用
3:定时重新读取EXCEL文件(如每对比30张表),释放内存,(Python内存释放真的很痛苦,全部是指针引用,A=B,DEL A;是不会释放空间的,要DEL B才行).
4.虽然openpyxl读取文件时有个只读模式(性能模式),但是速度实在是太慢了.
通过代码修改,现在完成文件对比所用的内存通常在2G以内
相关文章推荐
- ActiveMQ实现负载均衡+高可用部署方案【未完待续】
- 【ENVI错误】 OBJ_NEW:Error encoutered during the sparse operation
- Linux常用命令
- I.MX6 Linux、Jni ioctl 差异
- 【Linux 驱动】netfilter/iptables (一) 基础概念
- 把Nginx加为系统服务(service nginx start/stop/restart)
- CENTOS里面的配置163 mail 系统
- linux 下jdk安装
- Linux系统基础
- Hadoop运行wordcount时报classnotfound错误的一个原因
- 使用docker笔记
- Find使用详解
- cdlinux可以安装在c盘
- Linux 文件共享之SMB服务
- Linux 下mysql数据库导入导出
- 将 ASP.NET Core 1.0 应用作为 docker 镜像发布 (Linux版)
- 将Centos的yum源更换为国内的阿里云源
- linux中打开mysql的问题-bash: mysql: command not found
- linux grub.conf 文件详解及实例
- Linux系统中查杀僵尸进程的基本方法讲解