检测压缩包并处理的Linux脚本(解压、批量修改文件名、导入)分析
2017-02-15 17:59
471 查看
iamlaosong文
邮件结算数据压缩包由工作人员不定时从结算系统下载再FTP到指定的目录,所以我需要一个脚本,每天定时(用crontab)检测是否有上传的压缩包,如果有,则解压、截短文件名,导入数据库。之所以要截短文件名,是因为下载的压缩包中的文件名除了含有结算日期和类型外,还包括生成时间及序列号,而这一部分我是不需要的(没有规律和意义),所以要截去,以便于导入程序处理。压缩包分两种:使用费和补偿费,每个压缩包有6个文件,分别是出口分拣、进口分拣、航空、陆运、转运和投递。下面是脚本并解释几个关键点:
产生一个45到7的序列,用于产生距当天多少天的日期,以便检测那个日期的压缩包是否存在。
2、tshort=${tfile%SYF*.txt}SYF.txt
产生一个短文件名,将多余的不确定部分截掉,详细见Linux中如何批量截短文件名
3、rename _NBCL _ ${OPDATE}*SYF.txt
批量修改文件名,将文件名中的部分字符改成其它字符,见linux下批量修改文件名,本例是为了去掉一些字符。
4、zipfile=${OPDATE}*SYF*.zip
这个赋值有点意思,如果文件存在,其中的通配符“*”会转换成相应的字符,如果不存在,则将“*”直接赋给变量。
5、导入程序执行较慢,如果上传的压缩包过多,就会发生头天脚本还没结束,第二天又会定时启动一个新的脚本,为避免此事的发生,脚本前面应该加一段检测代码,如果有导入进程,则退出处理,代码如下:
其中${sdpt#*./}是截取“./”后面的字符串,而${sdpt:0:7}则是取前7个字符,如果是“sdpt_js”就退出处理。
6、 [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
这是两个连续的命令,前一个是检测目录是否存在,后一个是创建目录。“&&”的意思是前一个命令如果执行成功,就执行后一个命令,本例中就是如果目录不存在(注意其中的感叹号表示“非”)就创建目录。类似的还有“||”,表示前一个命令如果执行不成功,就执行后一个命令,所以,这个代码也可以写成:
cd ${OPDATE}
|| mkdir -p ${OPDATE}
==============================================
实际应用过程中发现根据序列生成日期的方式检测压缩文件并处理存在一个缺陷,就是有时压缩包上传的时间太迟了,导致文件不在序列生成的日期范围,压缩文件处理不到,还需要人工处理,所以需要改进处理办法。考虑到文件名中含有日期,现在改为直接检测压缩文件,提取文件名称中的日期,然后进行处理,这样就和上传日期无关了。
脚本如下:
"[[ ]]" 判断命令,比单个中括号更通用,支持字符串的模式匹配,使用=~操作符时甚至支持shell的正则表达式。
"=~"正则式匹配符号,利用它可以判断左边的字符串是否包含右边的字符串。
邮件结算数据压缩包由工作人员不定时从结算系统下载再FTP到指定的目录,所以我需要一个脚本,每天定时(用crontab)检测是否有上传的压缩包,如果有,则解压、截短文件名,导入数据库。之所以要截短文件名,是因为下载的压缩包中的文件名除了含有结算日期和类型外,还包括生成时间及序列号,而这一部分我是不需要的(没有规律和意义),所以要截去,以便于导入程序处理。压缩包分两种:使用费和补偿费,每个压缩包有6个文件,分别是出口分拣、进口分拣、航空、陆运、转运和投递。下面是脚本并解释几个关键点:
#timing job:unzip & import costs datafile by iamlaosong 20170215 #!/bin/sh BAKDIR=/home/oracle/ems_suan BINDIR=/home/oracle/bin/sdpt_js #OPDATE=`date -d '-1 day' +%Y%m%d` cd ${BAKDIR} # OPDATE=today - seq for i in $(seq 45 -1 7) do OPDATE=`date -d "-$i day" +%Y%m%d` echo ${OPDATE} # process SYF zipfile zipfile=${OPDATE}*SYF*.zip if [ -f ${zipfile} ]; then unzip ${zipfile} for tfile in ${OPDATE}*SYF*.txt do tshort=${tfile%SYF*.txt}SYF.txt if [ ${tfile} != ${tshort} ]; then mv ${tfile} ${tshort} fi done [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE} rename _NBCL _ ${OPDATE}*SYF.txt mv ${OPDATE}*SYF.txt ${OPDATE} mv ${zipfile} all_zip cd ${BINDIR} ./jsimp.sh ${OPDATE} SYF >/dev/null cd ${BAKDIR} fi # process BCF zipfile zipfile=${OPDATE}*BCF*.zip if [ -f ${zipfile} ]; then unzip ${zipfile} for tfile in ${OPDATE}*BCF*.txt do tshort=${tfile%BCF*.txt}BCF.txt if [ ${tfile} != ${tshort} ]; then mv ${tfile} ${tshort} fi done [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE} rename _NBCL _ ${OPDATE}*BCF.txt mv ${OPDATE}*BCF.txt ${OPDATE} mv ${zipfile} all_zip cd ${BINDIR} ./jsimp.sh ${OPDATE} BCF >/dev/null cd ${BAKDIR} fi done1、for i in $(seq 45 -1 7)
产生一个45到7的序列,用于产生距当天多少天的日期,以便检测那个日期的压缩包是否存在。
2、tshort=${tfile%SYF*.txt}SYF.txt
产生一个短文件名,将多余的不确定部分截掉,详细见Linux中如何批量截短文件名
3、rename _NBCL _ ${OPDATE}*SYF.txt
批量修改文件名,将文件名中的部分字符改成其它字符,见linux下批量修改文件名,本例是为了去掉一些字符。
4、zipfile=${OPDATE}*SYF*.zip
这个赋值有点意思,如果文件存在,其中的通配符“*”会转换成相应的字符,如果不存在,则将“*”直接赋给变量。
5、导入程序执行较慢,如果上传的压缩包过多,就会发生头天脚本还没结束,第二天又会定时启动一个新的脚本,为避免此事的发生,脚本前面应该加一段检测代码,如果有导入进程,则退出处理,代码如下:
sdpt=$(ps -ef|grep sdpt_js) sdpt=${sdpt#*./} if [ ${sdpt:0:7}="sdpt_js" ]; then echo The import program is running. exit fi
其中${sdpt#*./}是截取“./”后面的字符串,而${sdpt:0:7}则是取前7个字符,如果是“sdpt_js”就退出处理。
6、 [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
这是两个连续的命令,前一个是检测目录是否存在,后一个是创建目录。“&&”的意思是前一个命令如果执行成功,就执行后一个命令,本例中就是如果目录不存在(注意其中的感叹号表示“非”)就创建目录。类似的还有“||”,表示前一个命令如果执行不成功,就执行后一个命令,所以,这个代码也可以写成:
cd ${OPDATE}
|| mkdir -p ${OPDATE}
==============================================
实际应用过程中发现根据序列生成日期的方式检测压缩文件并处理存在一个缺陷,就是有时压缩包上传的时间太迟了,导致文件不在序列生成的日期范围,压缩文件处理不到,还需要人工处理,所以需要改进处理办法。考虑到文件名中含有日期,现在改为直接检测压缩文件,提取文件名称中的日期,然后进行处理,这样就和上传日期无关了。
脚本如下:
#timing job:unzip & import costs datafile by iamlaosong 20170623 #!/bin/sh sdpt=$(ps -ef|grep sdpt_js) sdpt=${sdpt#*./} if [ "${sdpt:0:7}" = "sdpt_js" ]; then echo The import program is running. exit fi . /home/oracle/.bash_profile BAKDIR=/home/oracle/ems_suan BINDIR=/home/oracle/bin/sdpt_js #OPDATE=`date -d '-1 day' +%Y%m%d` cd ${BAKDIR} for zipfile in *.zip do OPDATE="${zipfile:0:8}" echo ${OPDATE} # process SYF zipfile if [[ ${zipfile} =~ "SYF" ]]; then echo ${zipfile} # read -p "SYF file: press enter to continue..." var unzip ${zipfile} for tfile in ${OPDATE}*SYF*.txt do tshort=${tfile%SYF*.txt}SYF.txt if [ ${tfile} != ${tshort} ]; then mv ${tfile} ${tshort} fi done [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE} rename _NBCL _ ${OPDATE}*SYF.txt # read -p "SYF file: press enter to continue..." var mv ${OPDATE}*SYF.txt ${OPDATE} mv ${zipfile} all_zip cd ${BINDIR} ./jsimp.sh ${OPDATE} SYF >/dev/null cd ${BAKDIR} fi # process BCF zipfile if [[ ${zipfile} =~ "BCF" ]]; then echo ${zipfile} # read -p "BCF file: press enter to continue..." var unzip ${zipfile} for tfile in ${OPDATE}*BCF*.txt do tshort=${tfile%BCF*.txt}BCF.txt if [ ${tfile} != ${tshort} ]; then mv ${tfile} ${tshort} fi done [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE} rename _NBCL _ ${OPDATE}*BCF.txt # read -p "BCF file: press enter to continue..." var mv ${OPDATE}*BCF.txt ${OPDATE} mv ${zipfile} all_zip cd ${BINDIR} ./jsimp.sh ${OPDATE} BCF >/dev/null cd ${BAKDIR} fi done
"[[ ]]" 判断命令,比单个中括号更通用,支持字符串的模式匹配,使用=~操作符时甚至支持shell的正则表达式。
"=~"正则式匹配符号,利用它可以判断左边的字符串是否包含右边的字符串。
相关文章推荐
- linux中批量修改文件名的脚本代码
- 如何在Linux下解压中文文件名的压缩包
- Linux中文件名解析处理源码分析
- Linux下对NS2项目的仿真分析全过程代码(从tcl脚本-awk文本处理-gnuplot)
- PHP静态分析与跨站脚本检测(三)
- PHP静态分析与跨站脚本检测(四)
- Linux启动脚本分析之functions
- Linux系统脚本分析之rc.sysinit
- u.vbe脚本和U.BAT批处理源代码的分析以及防御方法(未完待续)
- linux 内核对中断标志的处理(SRCPND 清除)分析
- PHP静态分析与跨站脚本检测(二)
- WinRAR 7z压缩包处理溢出分析和利用(转)
- linux下各种格式的压缩包的压缩、解压方法
- linux下开机自动运行脚本以及定时任务的处理
- [导入]ADO.NET Entity Framework 深入分析, Part 6 – 处理并发(Concurrency Handling)
- [导入]linux下常用格式的压缩与解压方法
- Linux系统启动脚本分析之rc
- Apache在linux下处理中文文件名的解决
- Linux下XWindow系统启动脚本分析