高效的C编程之：除法运算

admin · 发表于 2014-10-10 07:23:40

14.2  除法运算

因为ARM体系结构本身并不包含除法运算硬件，所以在ARM上实现除法是十分耗时的。ARM指令集中没有直接提供除法汇编指令，当代码中出现除法运算时，ARM编译器会调用C库函数（有符合除法调用_rt_sdiv，无符合除法调用_rt_udiv），来实现除法操作。根据除数和被除数的不同，32bit的除法运算一般要占有20－140个指令周期。除法运算占用的指令周期，由下面公式计算。

Time(除数n / 被除数d)
= C0 + C1 * log2(除数n / 被除数d) =
= C0 + C1 * (log2(除数) -log2(被除数)).

为了避免在程序中出现除法操作，编程时尽量使用其他运算来代替除法操作。如，使用x>（z×y）来代替（x/y）>z。

另外，在无法避免的除法运算中，尽量使用无符合除法代替有符号除法。这是因为在ARM库函数中，无符合除法的运算速度要快于有符合除法。

下面章节将详细讨论如何在代码中提高除法运算的执行效率。

14.2.1  合并除法和求余运算

ARM的除法运算库函数能同时返回运算的商和余数。
在一些同时需要商和余数的情况下，编译器将调用一次除法运算函数同时存储运算的商和余数。

下面是一个编译器调用除法库，同时存储运算的商和余数的例子。
源程序如下。

int combined_div_mod (int a, int b)
{
return (a / b) + (a % b);
}

下面是编译器编译出的汇编代码。

combined_div_mod
      STMDB sp!,{lr}
      MOV a3,a2
      MOV a2,a1
      MOV a1,a3
      BL __rt_sdiv
      ADD a1,a1,a2
      LDMIA sp!,{pc}

从上面的例子可以看出，调用一次除法运算，同时返回了商和余数。

14.2.2  使用2的整数次幂做除数

当2的整数次幂做除数时，编译器会自动将除法运算转换成移位运算。所以在编写程序算法时，尽量使用2的整数次幂做除数。

下面的例子显示了编译器对除法运算的自动优化。
源程序如下。

typedef unsigned int uint;
uint div16u (uint a)
{ return a / 16;
}
int div16s (int a)
{ return a / 16;
}

编译器的编译结果如下。

div16u
      MOV a1,a1,LSR #4
      MOV pc,lr
div16s
      CMP a1,#0
      ADDLT a1,a1,#&f
      MOV a1,a1,ASR #4
      MOV pc,lr

从上面的例子可以看出，无符号除法的运算速度快于有符号除法。

14.2.3  求余运算

为了避免在程序中使用除法运算，可以将一些典型的求余运算进行转换。下面的例子提供一种转换方法。

uint counter1 (uint count)
{ return (++count % 60);
}

转换成，

uint counter2 (uint count)
{ if (++count >= 60)
count = 0;
return (count);
}

下面是两个功能函数编译后的汇编代码。

counter1
      STMDB sp!,{lr}
      ADD a2,a1,#1
      MOV a1,#&3c
      BL __rt_udiv
      MOV a1,a2
      LDMIA sp!,{pc}
counter2
      ADD a1,a1,#1
      CMP a1,#&3c
      MOVCS a1,#0
      MOV pc,lr

上面的例子清晰的显示了使用if语句代替除法运算后，代码的执行效率有很大提高。

14.2.4  除数是常数的除法

因为除法和模运算执行起来比较慢，所以应该尽可能地避免使用。但是除数是常数的除法运算和用同一个除数的重复除法，执行效率会比较高。在ARM的除法库中，存在除数为10的除法运算库，其中包括有符号除法和无符号除法。如果除数是10以外的其他常数，用户可以编写自己的功能函数。ARM的开发工具集中，提供了关于除数是常数的示例程序和算法分析，以供用户编写自己的代码时参考。

		自动登录	找回密码
密码			注册

[待整理] 高效的C编程之：除法运算

浏览过的版块