基于ARM的除法运算优化策略
2011-01-14 11:33
351 查看
和4/8位单片机相比,ARM的性能和处理能力是遥遥领先的。但与之相应,ARM的系统设计复杂度和难度,较之传统
的
设计方法也大大提升了,同时也大大拓展了针对arm芯片特性进行优化
的
空间,例如针对指令流水线
的
优化、针对寄存器分配进行
的
优化等。
arm在硬件上不支持除法指令,编译器是通过调用C库函数来实现除法运算的,有许多不同类型
的
除法程序来适应不同
的
除数和被除数。但直接利用C
库函数中de标准整数除法程序,根据执行情况和输入操作数
的
范围,要花费20~100个周期,消耗较多
的
软件运行时间。在实时嵌入式应用中,对时间参
数较为敏感,故可以考虑如何优化避免除法消耗过多
的
CPU运行时间。
除法和模运算(/和%)执行起来比较慢,所以应尽量避免使用。但是,除数是常数
的
除法运算和用同一个除数
的
重复除法,执行效率会比较高。在arm中,可以利用单条MUL指令实现乘法操作。本文将阐述如何用乘法运算代替除法运算,以及如何使除法
的
次数最少化。
1 避免除法运算
在非嵌入式领域,因为CPU运算速度快、存储器容量大,除法操作通常都是不加考虑直接使用
的
。但在嵌入式领域,首先需要考虑
的
是这些除法操作是否是必须的。以对环形缓冲区操作为例,经常要用到除法,其实完全可以避免这些除法运算。
假定
有
一个buffer_size大小的环形缓冲区,如图1所示,0ffset指定目前所在
的
位置。通过increment字节来增加offset
的
值,一般是这样写的:
0ffset = (Offset + increment) % buffer_size;
效率更高
的
写法是:
offset += increment;
if (offset >= buffer_size)
{
offset -= buffer_size;
}
第一种写法要花费50个周期,而第二种因为没
有
除法运算,只须花费3个周期。这里假定increment<buff_er_size,在实际应用中这点应该是保证
的
。
如果不能避免除法运算,那么就应尽量使除数和被除数是无符号
的
整数。
有
符号
的
除法程序执行起来更加慢,因为它们先要取得除数和被除数
的
绝对值,再调用无符号除法运算,最后再确定结果的符号
。
2 充分利用商和余数
许多C语言库中
的
除法函数返回商和余数。换句话说,每一个除法运算,余数是可以无偿得到
的
,反之亦然。例如,要在屏幕缓冲区找到偏移量为offset
的
屏幕位置(x,y),可以这样写:
typeclef struct{
int x;
int y;
}point
;
point getxy_v1(unsigned int offset,unslgned int bytes_per_line){
point p
;
p.y=offset/bytes_per_line
;
p.x=offset - p.y* bytcs_per_line
;
return p
;
}
这里,似乎对p.x使用减法和乘法,少了一次除法运算
;但是,实际上使用模运算或者取余操作效率更高,对
getxy_vl改进如下:
point getxy_v2(unsigned int offset,unsigned int bytes_per_line){
point P
;
P.x=offset%bytes_per_1ine
;
P.y=offset/bytes_per_line
;
return P;
从下面编译器的输出结果可以看到,只有一次除法调用。实际上,这个程序要比前面的
getxy_vl少4条指令(注意,并不是对 所有的编译器和C库都有这样的结果)。getxy_v2
STMFD r13!,{r4,r14} ;保存r4,lr人堆栈
MOV r4,rO ;赋值后r4保存的
为点P基址
MOV rO,r2 ;rO=bytes_per_line
BL rt_udiv ;调用无符号除法例程
(r0.;r1)=(rl/rO,rl%rO)
STR r0,[r4,#4] ;P.y=offset/bytes_per_line
STR rl,[r4,#o] ;P.x=offset%bytes_per_line
LDMFD r13!,(r4,pc) ;恢复上下文,返回
3 把除法转换为乘法
在程序中,同一个除数的
除法经常会出现很多次。在前面的
例子中,bytes_per_line的
值在整个程序中都是固定不变的
。又如3到2笛卡尔坐标变换,其中就使用了同一个除数两次:
(x,Y,x)→(x/z,y/z)
这种情况下,使用cache指令中的
值1/z,并使用1/z的
乘法来代替除法运算,效率会更高。另外,要尽可能使用int类型的
运算,避免使用浮点运算。
下面将更加偏重于从数学和理论的
角度分析,把重复除法转换成乘法运算。
下面来区分精确数学意义上的
除法和整型除法运算:
◇n/d,即整数n被分成整数d份,结果趋向于O(与C语言相同);
◇n%d,即n被d除之后的
余数,就是n--d(n/d);
◇n/d=n·d-1,即真正数学意义上的n
被d除。
当使用整型除法时,最容易估算d-1值的
方法是计算232/d。然后,就可以估算n/d为:
(n(232/d))/232 (1)
在执行n的
乘法时,需要精确到64位。对于这种方法,会出现如下问题:
◇为了计算232/d,由于一个unsigned int类型的
数据放不下232,编译器要使用64位long long类型的
数,而且必须指定除法为(1 ull<<32)/d。这种64位的
除法比32位的
除法执行起来要慢得多。
◇如果d碰巧是1,那么232/d就不再适合于un—signed int数据类型。
上面的
做法似乎很好,而且解决了这两个问题。那么,再来看一下用(232一1)/d代替232/d。
令
s=0xffffffff ul/d (2)
以上n/d-2,q,n/d+1为整数值,所以可得q=n/d或q=(n/d)一1,即初步估计
的
结果q与正确值n/d
有
可能存在偏差1。可以发现,通过计算余数r=n—q·d(O≤r<2d)是比较容易
的
。下面
的
代码纠正了这个结果:
r=n--q*d; /*初步估计结果余数r
的
范围为O≤r<2d*/
if(r>=d){ /*若需要校正*/
r-=d
; /*校正r,使O≤r<d为正确余数范围*/
n++
; /*相应商加1进行校正*/
} /*得正确结果q=n/d和r=n%d*/
下面给出一个实例,用上面
的
算法完成了N个元素de数组被d除。首先,计算上面所说des值,然后用乘以5来代替每个被d除de除法。64位
的
乘是很容易实现
的
,因为arm中
有
一条指令UMULL,可以进行2个32位数相乘,给出一个64位
的
结果。
void scale(
unsigned int*dest
; /*目的
数据*/
unsigned int*src
; /*源数据*/
unsignedInt d
; /*分母d*/
urlslglaedInt N
;) /*数据长度*/
{
unsigned int s=0xFFFFFFFFu/d
;
do{
unsigned int n,q,r
;
n=*(src++)
;
q=(urtslgrted int)(((unsined tong long)n*s)>>32)
;
r=n*d
;
if(r>=d){ /*若需要对商进行校正*/
q++
;
}
*(dest++)=q;
}while(一一N)
;
}
这里假定除数和被除数都是32位的
无符号整数。当然,使用32位乘法进行16位的
无符号数计算,或者使用1
28位乘法进行64位数计算,运算规则是一样的
。可以为特定的
数据选择最窄的
运算宽度。如果数据是16位de的
那么就设置s=(216一1)/d,
然后用标准的
整型乘法来求值q。
4 结 论
在嵌入式软件编程中,为了节省CPU运行时间,应尽可能避免使用除法。对环形缓冲区的
处理可以不用除法。如果不能避免除法运算,那么应尽可能使用除法程
序同时产生商n/d和余数n%d的
好处。对于重复对一除数的除法.预先计算好s=(2k一1)/d,用乘以sde2k位乘法来代替除以d的
k位无
符号整数除法,可大大减少由于直接使用除法操作引入的
指令周期数。
的
设计方法也大大提升了,同时也大大拓展了针对arm芯片特性进行优化
的
空间,例如针对指令流水线
的
优化、针对寄存器分配进行
的
优化等。
arm在硬件上不支持除法指令,编译器是通过调用C库函数来实现除法运算的,有许多不同类型
的
除法程序来适应不同
的
除数和被除数。但直接利用C
库函数中de标准整数除法程序,根据执行情况和输入操作数
的
范围,要花费20~100个周期,消耗较多
的
软件运行时间。在实时嵌入式应用中,对时间参
数较为敏感,故可以考虑如何优化避免除法消耗过多
的
CPU运行时间。
除法和模运算(/和%)执行起来比较慢,所以应尽量避免使用。但是,除数是常数
的
除法运算和用同一个除数
的
重复除法,执行效率会比较高。在arm中,可以利用单条MUL指令实现乘法操作。本文将阐述如何用乘法运算代替除法运算,以及如何使除法
的
次数最少化。
1 避免除法运算
在非嵌入式领域,因为CPU运算速度快、存储器容量大,除法操作通常都是不加考虑直接使用
的
。但在嵌入式领域,首先需要考虑
的
是这些除法操作是否是必须的。以对环形缓冲区操作为例,经常要用到除法,其实完全可以避免这些除法运算。
假定
有
一个buffer_size大小的环形缓冲区,如图1所示,0ffset指定目前所在
的
位置。通过increment字节来增加offset
的
值,一般是这样写的:
0ffset = (Offset + increment) % buffer_size;
效率更高
的
写法是:
offset += increment;
if (offset >= buffer_size)
{
offset -= buffer_size;
}
第一种写法要花费50个周期,而第二种因为没
有
除法运算,只须花费3个周期。这里假定increment<buff_er_size,在实际应用中这点应该是保证
的
。
如果不能避免除法运算,那么就应尽量使除数和被除数是无符号
的
整数。
有
符号
的
除法程序执行起来更加慢,因为它们先要取得除数和被除数
的
绝对值,再调用无符号除法运算,最后再确定结果的符号
。
2 充分利用商和余数
许多C语言库中
的
除法函数返回商和余数。换句话说,每一个除法运算,余数是可以无偿得到
的
,反之亦然。例如,要在屏幕缓冲区找到偏移量为offset
的
屏幕位置(x,y),可以这样写:
typeclef struct{
int x;
int y;
}point
;
point getxy_v1(unsigned int offset,unslgned int bytes_per_line){
point p
;
p.y=offset/bytes_per_line
;
p.x=offset - p.y* bytcs_per_line
;
return p
;
}
这里,似乎对p.x使用减法和乘法,少了一次除法运算
;但是,实际上使用模运算或者取余操作效率更高,对
getxy_vl改进如下:
point getxy_v2(unsigned int offset,unsigned int bytes_per_line){
point P
;
P.x=offset%bytes_per_1ine
;
P.y=offset/bytes_per_line
;
return P;
从下面编译器的输出结果可以看到,只有一次除法调用。实际上,这个程序要比前面的
getxy_vl少4条指令(注意,并不是对 所有的编译器和C库都有这样的结果)。getxy_v2
STMFD r13!,{r4,r14} ;保存r4,lr人堆栈
MOV r4,rO ;赋值后r4保存的
为点P基址
MOV rO,r2 ;rO=bytes_per_line
BL rt_udiv ;调用无符号除法例程
(r0.;r1)=(rl/rO,rl%rO)
STR r0,[r4,#4] ;P.y=offset/bytes_per_line
STR rl,[r4,#o] ;P.x=offset%bytes_per_line
LDMFD r13!,(r4,pc) ;恢复上下文,返回
3 把除法转换为乘法
在程序中,同一个除数的
除法经常会出现很多次。在前面的
例子中,bytes_per_line的
值在整个程序中都是固定不变的
。又如3到2笛卡尔坐标变换,其中就使用了同一个除数两次:
(x,Y,x)→(x/z,y/z)
这种情况下,使用cache指令中的
值1/z,并使用1/z的
乘法来代替除法运算,效率会更高。另外,要尽可能使用int类型的
运算,避免使用浮点运算。
下面将更加偏重于从数学和理论的
角度分析,把重复除法转换成乘法运算。
下面来区分精确数学意义上的
除法和整型除法运算:
◇n/d,即整数n被分成整数d份,结果趋向于O(与C语言相同);
◇n%d,即n被d除之后的
余数,就是n--d(n/d);
◇n/d=n·d-1,即真正数学意义上的n
被d除。
当使用整型除法时,最容易估算d-1值的
方法是计算232/d。然后,就可以估算n/d为:
(n(232/d))/232 (1)
在执行n的
乘法时,需要精确到64位。对于这种方法,会出现如下问题:
◇为了计算232/d,由于一个unsigned int类型的
数据放不下232,编译器要使用64位long long类型的
数,而且必须指定除法为(1 ull<<32)/d。这种64位的
除法比32位的
除法执行起来要慢得多。
◇如果d碰巧是1,那么232/d就不再适合于un—signed int数据类型。
上面的
做法似乎很好,而且解决了这两个问题。那么,再来看一下用(232一1)/d代替232/d。
令
s=0xffffffff ul/d (2)
以上n/d-2,q,n/d+1为整数值,所以可得q=n/d或q=(n/d)一1,即初步估计
的
结果q与正确值n/d
有
可能存在偏差1。可以发现,通过计算余数r=n—q·d(O≤r<2d)是比较容易
的
。下面
的
代码纠正了这个结果:
r=n--q*d; /*初步估计结果余数r
的
范围为O≤r<2d*/
if(r>=d){ /*若需要校正*/
r-=d
; /*校正r,使O≤r<d为正确余数范围*/
n++
; /*相应商加1进行校正*/
} /*得正确结果q=n/d和r=n%d*/
下面给出一个实例,用上面
的
算法完成了N个元素de数组被d除。首先,计算上面所说des值,然后用乘以5来代替每个被d除de除法。64位
的
乘是很容易实现
的
,因为arm中
有
一条指令UMULL,可以进行2个32位数相乘,给出一个64位
的
结果。
void scale(
unsigned int*dest
; /*目的
数据*/
unsigned int*src
; /*源数据*/
unsignedInt d
; /*分母d*/
urlslglaedInt N
;) /*数据长度*/
{
unsigned int s=0xFFFFFFFFu/d
;
do{
unsigned int n,q,r
;
n=*(src++)
;
q=(urtslgrted int)(((unsined tong long)n*s)>>32)
;
r=n*d
;
if(r>=d){ /*若需要对商进行校正*/
q++
;
}
*(dest++)=q;
}while(一一N)
;
}
这里假定除数和被除数都是32位的
无符号整数。当然,使用32位乘法进行16位的
无符号数计算,或者使用1
28位乘法进行64位数计算,运算规则是一样的
。可以为特定的
数据选择最窄的
运算宽度。如果数据是16位de的
那么就设置s=(216一1)/d,
然后用标准的
整型乘法来求值q。
4 结 论
在嵌入式软件编程中,为了节省CPU运行时间,应尽可能避免使用除法。对环形缓冲区的
处理可以不用除法。如果不能避免除法运算,那么应尽可能使用除法程
序同时产生商n/d和余数n%d的
好处。对于重复对一除数的除法.预先计算好s=(2k一1)/d,用乘以sde2k位乘法来代替除以d的
k位无
符号整数除法,可大大减少由于直接使用除法操作引入的
指令周期数。
相关文章推荐
- ARM的除法运算优化策略
- 基于ARM的除法运算方法集锦
- Java 程序优化:字符串操作、基本运算方法等优化策略
- JAVA对于乘法除法和模运算的优化,是否需要转换成位运算
- ARM 程序设计优化策略与技术
- 基于libfiber的高并发服务优化策略
- ARM 程序设计优化策略与技术
- 基于信赖域的动态径向基函数代理模型优化策略
- DeepLearning(基于caffe)优化策略(3)--调参篇
- 基于Windows平台/ARM平台优化的AMR编码器解码器
- Java 程序优化:字符串操作、基本运算方法等优化策略(二)
- WebGIS中基于控制点库进行SHP数据坐标转换的一种查询优化策略
- MaxCompute理解数据、运算和用户的大脑:基于代价的优化器
- Java 程序优化:字符串操作、基本运算方法等优化策略(一)
- Java 程序优化:字符串操作、基本运算方法等优化策略
- Java 程序优化:字符串操作、基本运算方法等优化策略
- 【再上层楼】CooCox优化了CoX——基于ARM Cortex-M处理器的设备驱动统一接口
- ARM 程序设计优化策略与技术
- [置顶] ARM开发(9)基于STM32的简单四则运算计算器
- MaxCompute理解数据、运算和用户的大脑:基于代价的优化器