DIY编程器网

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 129|回复: 0
打印 上一主题 下一主题

基于ARM的除法运算优化策略

[复制链接]
跳转到指定楼层
楼主
发表于 2012-1-17 23:38:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    与传统的4/8位单片机相比,ARM的性能和处理能力是遥遥领先的。但与之相应,ARM的系统设计复杂度和难度,较之传统的设计方法也大大提升了,同时也大大拓展了针对ARM芯片特性进行优化的空间,例如针对指令流水线的优化、针对寄存器分配进行的优化等。

    ARM在硬件上不支持除法指令,编译器是通过调用C库函数来实现除法运算的,有许多不同类型的除法程序来适应不同的除数和被除数。但直接利用C库函数中的标准整数除法程序,根据执行情况和输入操作数的范围,要花费20~100个周期,消耗较多的软件运行时间。在实时嵌入式应用中,对时间参数较为敏感,故可以考虑如何优化避免除法消耗过多的CPU运行时间。

    除法和模运算(/和%)执行起来比较慢,所以应尽量避免使用。但是,除数是常数的除法运算和用同一个除数的重复除法,执行效率会比较高。在ARM中,可以利用单条MUL指令实现乘法操作。本文将阐述如何用乘法运算代替除法运算,以及如何使除法的次数最少化。
 
1  避免除法运算
    在非嵌入式领域,因为CPU运算速度快、存储器容量大,除法操作通常都是不加考虑直接使用的。但在嵌入式领域,首先需要考虑的是这些除法操作是否是必须的。以对环形缓冲区操作为例,经常要用到除法,其实完全可以避免这些除法运算。

    假定有一个buffer_size大小的环形缓冲区,如图1所示,0ffset指定目前所在的位置。通过increment字节来增加offset的值,一般是这样写的:
0ffset=(Offset+increment)%buffer_size;

效率更高的写法是:
offset+=increment;
if(offset>=buffer_size){
    offset一=buffer_size;
}

    第一种写法要花费50个周期,而第二种因为没有除法运算,只须花费3个周期。这里假定increment2  充分利用商和余数
    许多C语言库中的除法函数返回商和余数。换句话说,每一个除法运算,余数是可以无偿得到的,反之亦然。例如,要在屏幕缓冲区找到偏移量为offset的屏幕位置(x,y),可以这样写:
typeclef struct{
  int  x;
  int y;
}point;
point getxy_v1(unsigned int offset,unslgned int bytes_per_line){
point p;
p.y=offset/lt)ytes_per_line;
p.x=offset -   p.y*  bytcs_per_line;
return p;
}



 
    这里,似乎对p.x使用减法和乘法,少了一次除法运算;但是,实际上使用模运算或者取余操作效率更高,对
getxy_vl改进如下:
point getxy_v2(unsigned int offset,unsigned int bytes_per_line){
point P;
P.x=offset%bytes_per_1ine;
P.y=offset/bytes_per_line;
return P;

    从下面编译器的输出结果可以看到,只有一次除法调用。实际上,这个程序要比前面的getxy_vl少4条指令(注意,并不是对所有的编译器和C库都有这样的结果)。getxy_v2
  STMFD r13!,{r4,r14};保存r4,lr人堆栈
  MOV  r4,rO    ;赋值后r4保存的为点P基址
  MOV  rO,r2    ;rO=bytes_per_line
  BL    rt_udiv    ;调用无符号除法例程
    (r0.;r1)=(rl/rO,rl%rO)
STR    r0,[r4,#4]  ;P.y=offset/bytes_per_line
STR  rl,[r4,#o]  ;P.x=offset%bytes_per_line
LDMFD r13!,(r4,pc);恢复上下文,返回
 
3  把除法转换为乘法
    在程序中,同一个除数的除法经常会出现很多次。在前面的例子中,bytes_per_line的值在整个程序中都是固定不变的。又如3到2笛卡尔坐标变换,其中就使用了同一个除数两次:
(x,Y,x)→(x/z,y/z)

    这种情况下,使用cache指令中的值1/z,并使用1/z的乘法来代替除法运算,效率会更高。另外,要尽可能使用int类型的运算,避免使用浮点运算。

    下面将更加偏重于从数学和理论的角度分析,把重复除法转换成乘法运算。

    下面来区分精确数学意义上的除法和整型除法运算:
◇n/d,即整数n被分成整数d份,结果趋向于O(与C语言相同);
◇n%d,即n被d除之后的余数,就是n--d(n/d);
◇n/d=n·d-1,即真正数学意义上的n被d除。

    当使用整型除法时,最容易估算d-1值的方法是计算232/d。然后,就可以估算n/d为:
    (n(232/d))/232    (1)

    在执行n的乘法时,需要精确到64位。对于这种方法,会出现如下问题:
◇为了计算232/d,由于一个unsigned int类型的数据放不下232,编译器要使用64位long long类型的数,而且必须指定除法为(1 ull=d){/*若需要校正*/
r-=d;/*校正r,使O≤r>32);
r=n*d;
if(r>=d){    /*若需要对商进行校正*/
    q++;
}
    *(dest++)=q;
}while(一一N);
}

    这里假定除数和被除数都是32位的无符号整数。当然,使用32位乘法进行16位的无符号数计算,或者使用1 28位乘法进行64位数计算,运算规则是一样的。可以为特定的数据选择最窄的运算宽度。如果数据是16位的,那么就设置s=(216一1)/d,然后用标准的整型乘法来求值q。
 
4  结  论
    在嵌入式软件编程中,为了节省CPU运行时间,应尽可能避免使用除法。对环形缓冲区的处理可以不用除法。如果不能避免除法运算,那么应尽可能使用除法程序同时产生商n/d和余数n%d的好处。对于重复对一除数d的除法.预先计算好s=(2k一1)/d,用乘以s的2k位乘法来代替除以d的k位无符号整数除法,可大大减少由于直接使用除法操作引入的指令周期数。
                          
                       
                          
                               
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏 分享分享 支持支持 反对反对
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|文字版|手机版|DIY编程器网 ( 桂ICP备14005565号-1 )

GMT+8, 2024-11-16 07:03 , 耗时 0.106203 秒, 18 个查询请求 , Gzip 开启.

各位嘉宾言论仅代表个人观点,非属DIY编程器网立场。

桂公网安备 45031202000115号

DIY编程器群(超员):41210778 DIY编程器

DIY编程器群1(满员):3044634 DIY编程器1

diy编程器群2:551025008 diy编程器群2

QQ:28000622;Email:libyoufer@sina.com

本站由桂林市临桂区技兴电子商务经营部独家赞助。旨在技术交流,请自觉遵守国家法律法规,一旦发现将做封号删号处理。

快速回复 返回顶部 返回列表