如何优化代码

合理的工作逻辑与算法. 一般而言, Code 永远是工程师的逻辑思维的体现. 无论是实现 function target or 构建 system struction, 逻辑思维的能力高低, 对 code size 具有深度影响(甚至对整个 project 的成功实现, 具有决定性的影响).

我们无意在这里讨论16-bit thumb指令集与 32-bit arm 指令集有何具体异同. 我们仅仅从 mcu 的datasheet 中寻找到如下解释(讨论了两者最终表现力): “工作在与 arm mode 相同的 32-bit 寄存器上, thumb code 保持了绝大部分的 arm 的表现力(的同时), Thumb code能够提供高达 65% 的(作为比较的)arm code size.”

谨慎使用编译器提供的任何C Library function, 如果必需, 尽量自行完成需要的函数功能.

无论是 sprintf(), atoi(), ntop(),都会带来size 的显著增加. 如有可能, 我们应当自行完成我们需要的类似的 functions.

3. 谨慎使用 math 函数, 尽量不要包含 math.h
作为两个比较的的例子是, 在同等编译条件下, fasbs()可能多耗费 about 200bytes. sqrt() 可能会多耗费 about 3.5k bytes.

1. 尽量避免 char(U8/S8), short(U16/S16) 的定义, 而使用 int(U32/S32) 的定义.

对于从 8-bit来到 arm world 的 engineer, 可能份外不习惯这个转变吧?

C/C++ compiler reference document 明确指出: 只要可能, 就应使用 int or long 来替代 char or short, 从而避免了符号位扩展与zero拓展. 而且, 对 loop index 使用 int/long 将减小 code 产生. 特别要指出, 在 thumb mode, stack pointer(SP) 被严格定义为 32-bit data types(因此更应该使用 int/long).

一个令人有兴趣的简单实验能够证明, 所谓的”sign extension or zero extensize”带来的额外代码消耗. 在一份c的源文件中, 如果我们定义了 U8 global_data. 简单将其改为 U32 global_data. Then do rebuild all, we will find the code size decrease 4 bytes… ; ) 但是要提及的是, 我们的项目经验说明这个way往往还会带来一个其他的效果: DATA size在这种情形下或略有增加.

对于 packed structures, 作者在相同的 blog 主页发表了专题文章, 指出了选择使用 packed structures, 仍然可以享受到尽可能小的 code size, 以及保持access speed的处理方式. 检索作者的 blog, 或检查全部文章列表, 将会发现该篇文章. 在我们的项目经验中, 在 32k bytes 左右的 project 中, 我们获得了额外的大约 2k bytes 的节省的 code size.

在一些运算中, 我们常常将牵涉到如下步骤: 将float *10e(小数点后位数), 将float转化为U32进行运算. 结果在/10e(相应位数). 运算精度在这里被降低了. 但这完全取决于我们的工作目标: 在不复杂的算法中, 避免了浮点运算的使用(以上讨论, 均假设我们的 mcu 不包含浮点运算协处理器). Reference 也一再强调没有math协处理器, 浮点数据类型效率低下.

6. reference 指出, 尽量定义 local 变量. 减少 static 或 global 变量的定义, 这样将帮助优化的过程. 且local 变量尽量少使用 &. Reference 指出, 这种定义将放置变量到 memory 中, 而不能放置到处理器的 register 中(代码会变大变慢). 另外也不能有助于优化器进行优化.

8. 应保持数据变量的type 定义的一致性, 在运算中, 尽量减少类似 U32 -> U16 -> U32 的不必要的强制转化过程.

9. 定义字符串为全局变量, 在 ram 富余的情况下, 这是一个利用 ram 来分担降低 code size 的技巧.

构建代码的过程, 不仅仅是理性思维落实为真实世界逻辑的过程, 我们觉得, 也是和编译器进行交互的过程. 我们所作所为, 需要实现目的之逻辑, 我觉得也需要, "讨好"编译器, 让它为我们的代码, 生产 size 和 speed 都得到优化的job.

　1、选择合适的算法和数据结构
　　应该熟悉算法语言，知道各种算法的优缺点，具体资料请参见相应的参考资料，有很多电脑书籍上都有介绍。将比较慢的顺序查找法用较快的二分查找或乱序查找法代替，插入排序或冒泡排序法用快速排序、合并排序或根排序代替，都能够大大提高程式执行的效率。.选择一种合适的数据结构也很重要，比如您在一堆随机存放的数中使用了大量的插入和删除指令，那使用链表要快得多。数组和指针语句具备十分密码的关系，一般来说，指针比较灵活简洁，而数组则比较直观，容易理解。对于大部分的编译器，使用指针比使用数组生成的代码更短，执行效率更高。但是在Keil中则相反，使用数组比使用的指针生成的代码更短。。

　　2。。。

　　3、使用尽量小的数据类型
能够使用字符型(char)定义的变量，就不要使用整型(int)变量来定义；能够使用整型变量定义的变量就不要用长整型(long int)，能不使用浮点型(float)变量就不要使用浮点型变量。当然，在定义变量后不要超过变量的作用范围，假如超过变量的范围赋值，C编译器并不报错，但程式运行结果却错了，而且这样的错误很难发现。
在ICCAVR中，能够在Options中设定使用printf参数，尽量使用基本型参数(%c、版权申明：本站文章均来自网络，如有侵权，请联系028-86262244-215，我们收到后立即删除,谢谢！
%d、%x、%X、%u和%s格式说明符)，少用长整型参数(%ld、%lu、%lx和%lX格式说明符)，至于浮点型的参数(%f)则尽量不要使用，其他C编译器也相同。在其他条件不变的情况下，使用%f参数，会使生成的代码的数量增加很多，执行速度降低。

　　4、使用自加、自减指令
　　通常使用自加、自减指令和复合赋值表达式(如a-=1及a =1等)都能够生成高质量的
程式代码，编译器通常都能够生成inc和dec之类的指令，而使用a=a 1或a=a-1之类
的指令，有很多C编译器都会生成二到三个字节的指令。在AVR单片适用的ICCAVR、 GCCAVR、IAR等C编译器以上几种书写方式生成的代码是相同的，也能够生成高质量的inc和dec之类的的代码。

　　5、减少运算的强度
　　能够使用运算量小但功能相同的表达式替换原来复杂的的表达式。如下：

(1)、求余运算。
a=a%8;
能够改为：
a=a&7;
说明：位操作只需一个指令周期即可完成，而大部分的C编译器的“%”运算均是调用子程式来完成，代码长、执行速度慢。通常，只需要是求2n方的余数，均可使用位操作的方法来代替。

(2)、平方运算
a=pow(a,2.0);
能够改为：
a=a*a;
说明：在有内置硬件乘法器的单片机中(如51系列)，乘法运算比求平方运算快得多，因为浮点数的求平方是通过调用子程式来实现的，在自带硬件乘法器的AVR单片机中，如ATMega163中，乘法运算只需2个时钟周期就能够完成。既使是在没有内置硬件乘法器的AVR单片机中，乘法运算的子程式比平方运算的子程式代码短，执行速度快。特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系.
假如是求3次方，如：
a=pow(a,3.0);
更改为：
a=a*a*a；
则效率的改善更明显。

(3)、用移位实现乘除法运算
a=a*4;
b=b/4;
能够改为：
a=a<<2;
b=b>>2;
说明：通常假如需要乘以或除以2n，都能够用移位的方法代替。在ICCAVR中，假如乘以2n，都能够生成左移的代码，而乘以其他的整数或除以任何数，均调用乘除法子程式。用移位的方法得到代码比调用乘除法子程式生成的代码效率高。实际上，只要是乘以或除以一个整数，均能够用移位的方法得到结果，如：
a=a*9
能够改为：
a=(a<<3) a

　　6、循环

(1)、循环语
对于一些无需循环变量参加运算的任务能够把他们放到循环外面，这里的任务包括表达式、函数的调用、指针运算、数组访问等，应该将没有必要执行多次的操作全部集合在一起，放到一个init的初始化程式中进行。

(2)、延时函数：
通常使用的延时函数均采用自加的形式：
void delay (void)
{
unsigned int i;
for (i=0;i<1000;i )
;
}
将其改为自减延时函数：
void delay (void)
{
unsigned int i;
for (i=1000;i>0;i--) ..
;
}
　　两个函数的延时效果相似，但几乎任何的C编译对后一种函数生成的代码均比前一种代码少1~3个字节，因为几乎任何的MCU均有为0转移的指令，采用后一种方式能够生成这类指令。在使用while循环时也相同，使用自减指令控制循环会比使用自加指令控制循环生成的代码更少1~3个字母。但是在循环中有通过循环变量“i”读写数组的指令时，使用预减循环时有可能使数组超界，要引起注意。

(3)while循环和do…while循环
用while循环时有以下两种循环形式：
unsigned int i;
i=0;
while (i<1000)
{
i ;
//用户程式
}
或：
unsigned int i;
i=1000;
do
i--;
//用户程式
while (i>0);
在这两种循环中，使用do…while循环编译后生成的代码的长度短于while循环。

　　7、查表
　　在程式中一般不进行很复杂的运算，如浮点数的乘除及开方等，连同一些复杂的数学模型的插补运算，对这些即消耗时间又消费资源的运算，应尽量使用查表的方式，并且将数据表置于程式存储区。假如直接生成所需的表比较困难，也尽量在启了，减少了程式执行过程中重复计算的工作量。

　　8、其他
　　比如使用在线汇编及将字符串和一些常量保存在程式存储器中，均有利于优化

如何优化C语言代码(程序员必读)------(1)

如何优化C语言代码(程序员必读)[转]http://www./　2008-11-17 　网络　点击:69 　[ 评论 ]
文章搜索：【点击打包该文章】被过滤广告
【本站开通在线QQ讨论群】

1、选择合适的算法和数据结构
应该熟悉算法语言，知道各种算法的优缺点，具体资料请参见相应的参考资料，有很多计算机书籍上都有介绍。将比较慢的顺序查找法用较快的二分查找或乱序查找法代替，插入排序或冒泡排序法用快速排序、合并排序或根排序代替，都可以大大提高程序执行的效率。.选择一种合适的数据结构也很重要，比如你在一堆随机存放的数中使用了大量的插入和删除指令，那使用链表要快得多。数组与指针语句具有十分紧密的关系，一般来说，指针比较灵活简洁，而数组则比较直观，容易理解。对于大部分的编译器，使用指针比使用数组生成的代码更短，执行效率更高。但是在Keil中则相反，使用数组比使用的指针生成的代码更短。。

3、使用尽量小的数据类型
能够使用字符型(char)定义的变量，就不要使用整型(int)变量来定义；能够使用整型变量定义的变量就不要用长整型(long int)，能不使用浮点型(float)变量就不要使用浮点型变量。当然，在定义变量后不要超过变量的作用范围，如果超过变量的范围赋值，C编译器并不报错，但程序运行结果却错了，而且这样的错误很难发现。
在ICCAVR中，可以在Options中设定使用printf参数，尽量使用基本型参数(%c、%d、%x、%X、%u和%s格式说明符)，少用长整型参数(%ld、%lu、%lx和%lX格式说明符)，至于浮点型的参数(%f)则尽量不要使用，其它C编译器也一样。在其它条件不变的情况下，使用%f参数，会使生成的代码的数量增加很多，执行速度降低。

4、使用自加、自减指令
通常使用自加、自减指令和复合赋值表达式(如a-=1及a+=1等)都能够生成高质量的程序代码，编译器通常都能够生成inc和dec之类的指令，而使用 a=a+1或a=a-1之类的指令，有很多C编译器都会生成二到三个字节的指令。在AVR单片适用的ICCAVR、GCCAVR、IAR等C编译器以上几种书写方式生成的代码是一样的，也能够生成高质量的inc和dec之类的的代码。

5、减少运算的强度
      可以使用运算量小但功能相同的表达式替换原来复杂的的表达式。如下：
(1)、求余运算。
        a=a%8;
可以改为：
        a=a&7;

说明：位操作只需一个指令周期即可完成，而大部分的C编译器的“%”运算均是调用子程序来完成，代码长、执行速度慢。通常，只要求是求2n方的余数，均可使用位操作的方法来代替。

(2)、平方运算
a=pow(a,2.0);
可以改为：
a=a*a;

说明：在有内置硬件乘法器的单片机中(如51系列)，乘法运算比求平方运算快得多，因为浮点数的求平方是通过调用子程序来实现的，在自带硬件乘法器的AVR 单片机中，如ATMega163中，乘法运算只需2个时钟周期就可以完成。既使是在没有内置硬件乘法器的AVR单片机中，乘法运算的子程序比平方运算的子程序代码短，执行速度快。

如果是求3次方，如：
a=pow(a,3.0);
更改为：
a=a*a*a；
则效率的改善更明显。

(3)、用移位实现乘除法运算
        a=a*4;
        b=b/4;
可以改为：
        a=a<<2;
        b=b>>2;

说明：通常如果需要乘以或除以2n，都可以用移位的方法代替。在ICCAVR中，如果乘以2n，都可以生成左移的代码，而乘以其它的整数或除以任何数，均调用乘除法子程序。用移位的方法得到代码比调用乘除法子程序生成的代码效率高。实际上，只要是乘以或除以一个整数，均可以用移位的方法得到结果，如：
a=a*9
可以改为：
a=(a<<3)+a

6、循环
(1)、循环语
对于一些不需要循环变量参加运算的任务可以把它们放到循环外面，这里的任务包括表达式、函数的调用、指针运算、数组访问等，应该将没有必要执行多次的操作全部集合在一起，放到一个init的初始化程序中进行。

(2)、延时函数：
通常使用的延时函数均采用自加的形式：
        void delay (void)
        {
unsigned int i;
        for (i=0;i<1000;i++)
        ;
        }
将其改为自减延时函数：
        void delay (void)
        {
unsigned int i;
            for (i=1000;i>0;i--)
        ;
        }

两个函数的延时效果相似，但几乎所有的C编译对后一种函数生成的代码均比前一种代码少1~3个字节，因为几乎所有的MCU均有为0转移的指令，采用后一种方式能够生成这类指令。在使用while循环时也一样，使用自减指令控制循环会比使用自加指令控制循环生成的代码更少1~3个字母。但是在循环中有通过循环变量“i”读写数组的指令时，使用预减循环时有可能使数组超界，要引起注意。

(3)while循环和do…while循环
用while循环时有以下两种循环形式：
unsigned int i;
        i=0;
        while (i<1000)
        {
            i++;
        //用户程序
        }
或：
unsigned int i;
        i=1000;
        do
        i--;
        //用户程序
        while (i>0);
      在这两种循环中，使用do…while循环编译后生成的代码的长度短于while循环。

7、查表
在程序中一般不进行非常复杂的运算，如浮点数的乘除及开方等，以及一些复杂的数学模型的插补运算，对这些即消耗时间又消费资源的运算，应尽量使用查表的方式，并且将数据表置于程序存储区。如果直接生成所需的表比较困难，也尽量在启了，减少了程序执行过程中重复计算的工作量。

8、其它
比如使用在线汇编及将字符串和一些常量保存在程序存储器中，均有利于优化

嵌入式实时程序设计中C/C++代码的优化

1 引言

计算机技术和信息技术的高速发展的今天，计算机和计算机技术大量应用在人们的日常生活中，嵌入式计算机也得到了广泛的应用。嵌入式计算机是指完成一种或多种特定功能的计算机系统，是软硬件的紧密结合体。具有软件代码小、高度自动化、响应速度快等特点。特别适合于要求实时和多任务的应用体系。嵌入式实时系统是目前蓬勃发展的行业之一。但是，实时嵌入式系统的特点使得其软件受时间和空间的严格限制，加上运行环境复杂，使得嵌入式系统软件的开发变得异常困难。为了设计一个满足功能、性能和死线要求的系统，为了开发出安全可靠的高性能嵌入式系统，开发语言的选择十分重要。
2 嵌入式实时程序设计中语言的选择

随着嵌入式系统应用范围的不断扩大和嵌入式实时操作系统RTOS(Real Time Operating System)的广泛使用，高级语言编程已是嵌入式系统设计的必然趋势。因为汇编语言和具体的微处理器的硬件结构密切相关，移植性较差，既不宜在复杂系统中使用，又不便于实现软件重用；而高级语言具有良好的通用性和丰富的软件支持，便于推广、易于维护，因此高级语言编程具有许多优势。目前，在嵌入式系统开发过程中使用的语言种类很多，但仅有少数几种语言得到了比较广泛的应用。其中C和C++是应用最广泛的。C++在支持现代软件工程、 OOP(Object Oriented Programming，面向对象的程序设计)、结构化等方面对C进行了卓有成效的改进，但在程序代码容量、执行速度、程序复杂程度等方面比C语言程序性能差一些。由于C语言既有低级语言的直接控制硬件的能力，又有高级语言的灵活性，是目前在嵌入式系统中应用最广泛的编程语言。随着网络技术和嵌入式技术的不断发展，Java的应用也得到广泛应用。

3 C/C++代码在实时程序设计中的优化

虽然使软件正确是一个工程合乎逻辑的最后一个步骤，但是在嵌入式的系统开发中，情况并不总是这样的。出于对低价产品的需求，硬件的设计者需要提供刚好足够的存储器和完成工作的处理能力。所以在嵌入式软件设计的最后一个阶段则变成了对代码的优化。

现代的C和C++编译器都提供了一定程度上的代码优化。然而，大部分由编译器执行的优化仅涉及执行速度和代码大小的一个平衡。你的程序能够变得更快或者更小，但是不可能又变快又变小。经过本人在嵌入式系统设计和实现过程中实践，下面介绍几种简单且行之有效的C/C++代码的优化方法。

(1) Inline函数

在C++中，关键字Inline可以被加入到任何函数的声明中。这个关键字请求编译器用函数内部的代码替换所有对于指出的函数的调用。这样做在两个方面快于函数调用。这样做在两个方面快于函数调用：第一，省去了调用指令需要的执行时间；第二，省去了传递变元和传递过程需要的时间。但是使用这种方法在优化程序速度的同时，程序长度变大了，因此需要更多的ROM。使用这种优化在Inline函数频繁调用并且只包含几行代码的时候是最有效的。
(2)用指针代替数组

      在许多种情况下，可以用指针运算代替数组索引，这样做常常能产生又快又短的代码。与数组索引相比，指针一般能使代码速度更快，占用空间更少。使用多维数组时差异更明显。下面的代码作用是相同的，但是效率不一样。
      数组索引                  指针运算
      For(;;){                  p=array
      A=array[t++];            for(;;){
                                  a=*(p++);
      ......                      ......
      }                        }

指针方法的优点是，array的地址每次装入地址p后，在每次循环中只需对p增量操作。在数组索引方法中，每次循环中都必须进行基于t值求数组下标的复杂运算。
(3)不定义不使用的返回值

function函数定义并不知道函数返回值是否被使用，假如返回值从来不会被用到，应该使用void来明确声明函数不返回任何值。

(4)手动编写汇编

在嵌入式软件开发中，一些软件模块最好用汇编语言来写，这可以使程序更加有效。虽然C/C++编译器对代码进行了优化，但是适当的使用内联汇编指令可以有效的提高整个系统运行的效率。
(5)使用寄存器变量

在声明局部变量的时候可以使用register关键字。这就使得编译器把变量放入一个多用途的寄存器中，而不是在堆栈中，合理使用这种方法可以提高执行速度。函数调用越是频繁，越是可能提高代码的速度。
(6)使用增量和减量操作符

      在使用到加一和减一操作时尽量使用增量和减量操作符，因为增量符语句比赋值语句更快，原因在于对大多数CPU来说，对内存字的增、减量操作不必明显地使用取内存和写内存的指令，比如下面这条语句：
      x=x+1;
      模仿大多数微机汇编语言为例，产生的代码类似于：
      move A,x        ;把x从内存取出存入累加器A
      add A,1        ;累加器A加1
      store x        ;把新值存回x

      如果使用增量操作符，生成的代码如下：
      incr x          ;x加1
      显然，不用取指令和存指令，增、减量操作执行的速度加快，同时长度也缩短了。

(7)减少函数调用参数

使用全局变量比函数传递参数更加有效率。这样做去除了函数调用参数入栈和函数完成后参数出栈所需要的时间。然而决定使用全局变量会影响程序的模块化和重入，故要慎重使用。
(8)Switch语句中根据发生频率来进行case排序

switch语句是一个普通的编程技术，编译器会产生if-else-if的嵌套代码，并按照顺序进行比较，发现匹配时，就跳转到满足条件的语句执行。使用时需要注意。每一个由机器语言实现的测试和跳转仅仅是为了决定下一步要做什么，就把宝贵的处理器时间耗尽。为了提高速度，没法把具体的情况按照它们发生的相对频率排序。换句话说，把最可能发生的情况放在第一位，最不可能的情况放在最后。
(9)将大的switch语句转为嵌套switch语句

      当switch语句中的case标号很多时，为了减少比较的次数，明智的做法是把大switch语句转为嵌套switch语句。把发生频率高的case 标号放在一个switch语句中，并且是嵌套switch语句的最外层，发生相对频率相对低的case标号放在另一个switch语句中。比如，下面的程序段把相对发生频率低的情况放在缺省的case标号内。          pMsg=ReceiveMessage();
          switch (pMsg->type)
          {
          case FREQUENT_MSG1:
          handleFrequentMsg();
          break;
          case FREQUENT_MSG2:
          handleFrequentMsg2();
          break;
          ......
          case FREQUENT_MSGn:
          handleFrequentMsgn();
          break;
          default:                        //嵌套部分用来处理不经常发生的消息
          switch (pMsg->type)
          {
          case INFREQUENT_MSG1:
          handleInfrequentMsg1();
          break;
          case INFREQUENT_MSG2:
          handleInfrequentMsg