|
在当今嵌入式“武林”中,流传着几本人人都想偷学几招的C语言的武功秘籍。这些秘籍都是旷世武学奇才耗尽毕生精力所著,部分秘籍流经数十载仍经久不衰,让它的无数实习者受益匪浅。 今天,承蒙武林大会所拖,在这公布这几本关于C的“经书”,让更多人实习之,练就一身绝世的嵌入式C语言好功夫。 武功秘籍排行榜: 1. The C programming language 《C程序设计语言》
2. Pointers on C
《C和指针》 3. C traps and pitfalls
《C陷阱与缺陷》
4. Expert C Lanuage
《专家C编程》
5. Writing Clean Code -----Microsoft Techiniques for Developing Bug-free C Programs
《编程精粹--Microsoft 编写优质无错C程序秘诀》 6. Programming Embedded Systems in C and C++ 《嵌入式系统编程》
7.《C语言嵌入式系统编程修炼》 8.《高质量C++/C编程指南》林锐
---------------------------------------------------------------------------------------------------------------------------------------- 优化C代码常用的几招
在性能优化方面永远注意80-20原则,即20%的程序消耗了80%的运行时间,因而我们要改进效率,最主要是考虑改进那20%的代码。不要优化程序中开销不大的那80%,这是劳而无功的。
第一招:以空间换时间
计算机程序中最大的矛盾是空间和时间的矛盾,那么,从这个角度出发逆向思维来考虑程序的效率问题,我们就有了解决问题的第1招--以空间换时间。比如说字符串的赋值:
方法A:通常的办法
#define LEN 32 char string1 [LEN]; memset (string1,0,LEN); strcpy (string1,"This is a example!!");
方法B:
const char string2[LEN] ="This is a example!"; char * cp; cp = string2
使用的时候可以直接用指针来操作。
从上面的例子可以看出,A和B的效率是不能比的。在同样的存储空间下,B直接使用指针就可以操作了,而A需要调用两个字符函数才能完成。B的缺点在于灵活性没有A好。在需要频繁更改一个字符串内容的时候,A具有更好的灵活性;如果采用方法B,则需要预存许多字符串,虽然占用了大量的内存,但是获得了程序执行的高效率。
如果系统的实时性要求很高,内存还有一些,那我推荐你使用该招数。
第二招: 使用宏而不是函数。
这也是第一招的变招。函数和宏的区别就在于,宏占用了大量的空间,而函数占用了时间。大家要知道的是,函数调用是要使用系统的栈来保存数据的,如果编译器里有栈检查选项,一般在函数的头会嵌入一些汇编语句对当前栈进行检查;同时,CPU也要在函数调用时保存和恢复当前的现场,进行压栈和弹栈操作,所以,函数调用需要一些CPU时间。而宏不存在这个问题。宏仅仅作为预先写好的代码嵌入到当前程序,不会产生函数调用,所以仅仅是占用了空间,在频繁调用同一个宏的时候,该现象尤其突出。
举例如下:
方法C:
#define bwMCDR2_ADDRESS 4 #define bsMCDR2_ADDRESS 17 int BIT_MASK(int __bf) { return ((1U << (bw ## __bf)) - 1)<< (bs ## __bf); } void SET_BITS(int __dst, int __bf, int __val) { __dst = ((__dst) & ~(BIT_MASK(__bf))) | \ (((__val) << (bs ## __bf)) & (BIT_MASK(__bf)))) } SET_BITS(MCDR2, MCDR2_ADDRESS,ReGISterNumber);
方法D:
#define bwMCDR2_ADDRESS 4 #define bsMCDR2_ADDRESS 17 #define bmMCDR2_ADDRESS BIT_MASK(MCDR2_ADDRESS) #define BIT_MASK(__bf) (((1U << (bw ## __bf)) - 1) << (bs ## __bf)) #define SET_BITS(__dst, __bf, __val) \ ((__dst) = ((__dst) & ~(BIT_MASK(__bf))) | \ (((__val) << (bs ## __bf)) & (BIT_MASK(__bf)))) SET_BITS(MCDR2, MCDR2_ADDRESS, RegisterNumber);
D方法是我看到的最好的置位操作函数,是ARM公司源码的一部分,在短短的三行内实现了很多功能,几乎涵盖了所有的位操作功能。C方法是其变体,其中滋味还需大家仔细体会。
第三招:数学方法解决问题
现在我们演绎高效C语言编写的第二招--采用数学方法来解决问题。数学是计算机之母,没有数学的依据和基础,就没有计算机的发展,所以在编写程序的时候,采用一些数学方法会对程序的执行效率有数量级的提高。举例如下,求 1~100的和。
方法E:
int I , j; for (I = 1 I<=100; I ++) { j += I; }
方法F
int I; I = (100 * (1+100)) / 2
这个例子是我印象最深的一个数学用例,是我的计算机启蒙老师考我的。当时我只有小学三年级,可惜我当时不知道用公式 N×(N+1)/ 2 来解决这个问题。方法E循环了100次才解决问题,也就是说最少用了100个赋值,100个判断,200个加法(I和j);而方法F仅仅用了1个加法,1 次乘法,1次除法。效果自然不言而喻。所以,现在我在编程序的时候,更多的是动脑筋找规律,最大限度地发挥数学的威力来提高程序运行的效率。
第四招:使用位操作
使用位操作。减少除法和取模的运算。在计算机程序中数据的位是可以操作的最小数据单位,理论上可以用"位运算"来完成所有的运算和操作。一般的位操作是用来控制硬件的,或者做数据变换使用,但是,灵活的位操作可以有效地提高程序运行的效率。举例如下:
方法G
int I,J; I = 257 /8; J = 456 % 32;
方法H
int I,J; I = 257 >>3; J = 456 - (456 >> 4 << 4);
在字面上好像H比G麻烦了好多,但是,仔细查看产生的汇编代码就会明白,方法G调用了基本的取模函数和除法函数,既有函数调用,还有很多汇编代码和寄存器参与运算;而方法H则仅仅是几句相关的汇编,代码更简洁,效率更高。当然,由于编译器的不同,可能效率的差距不大,但是,以我目前遇到的MS C ,ARM C 来看,效率的差距还是不小。对于以2的指数次方为"*"、"/"或"%"因子的数学运算,转化为移位运算"<< >>"通常可以提高算法效率。因为乘除运算指令周期通常比移位运算大。C语言位运算除了可以提高运算效率外,在嵌入式系统的编程中,它的另一个最典型的应用,而且十分广泛地正在被使用着的是位间的与(&)、或(|)、非(~)操作,这跟嵌入式系统的编程特点有很大关系。我们通常要对硬件寄存器进行位设置,譬如,我们通过将AM186ER型80186处理器的中断屏蔽控制寄存器的第低6位设置为0(开中断2),最通用的做法是:
#define INT_I2_MASK 0x0040 wTemp = inword(INT_MASK); outword(INT_MASK, wTemp &~INT_I2_MASK);
而将该位设置为1的做法是:
#define INT_I2_MASK 0x0040 wTemp = inword(INT_MASK); outword(INT_MASK, wTemp | INT_I2_MASK);
判断该位是否为1的做法是:
#define INT_I2_MASK 0x0040 wTemp = inword(INT_MASK); if(wTemp & INT_I2_MASK) { … /* 该位为1 */ }
运用这招需要注意的是,因为CPU的不同而产生的问题。比如说,在PC上用这招编写的程序,并在PC上调试通过,在移植到一个16位机平台上的时候,可能会产生代码隐患。所以只有在一定技术进阶的基础下才可以使用这招。
第五招:汇编嵌入
在熟悉汇编语言的人眼里,C语言编写的程序都是垃圾"。这种说法虽然偏激了一些,但是却有它的道理。汇编语言是效率最高的计算机语言,但是,不可能靠着它来写一个操作系统吧?所以,为了获得程序的高效率,我们只好采用变通的方法--嵌入汇编,混合编程。嵌入式C程序中主要使用在线汇编,即在C程序中直接插入_asm{ }内嵌汇编语句。 举例如下,将数组一赋值给数组二,要求每一字节都相符。 char string1[1024],string2[1024];
方法I
int I; for (I =0 I<1024;I++) *(string2 + I) = *(string1 + I)
方法J
#ifdef _PC_ int I; for (I =0 I<1024;I++) *(string2 + I) = *(string1 + I); #else #ifdef _ARM_ __asm { MOV R0,string1 MOV R1,string2 MOV R2,#0 loop: LDMIA R0!, [R3-R11] STMIA R1!, [R3-R11] ADD R2,R2,#8 CMP R2, #400 BNE loop } #endif
再举个例子:
/* 把两个输入参数的值相加,结果存放到另外一个全局变量中 */ int result; void Add(long a, long *b) { _asm { MOV AX, a MOV BX, b ADD AX, [BX] MOV result, AX } }
方法I是最常见的方法,使用了1024次循环;方法J则根据平台不同做了区分,在ARM平台下,用嵌入汇编仅用128次循环就完成了同样的操作。这里有朋友会说,为什么不用标准的内存拷贝函数呢?这是因为在源数据里可能含有数据为0的字节,这样的话,标准库函数会提前结束而不会完成我们要求的操作。这个例程典型应用于LCD数据的拷贝过程。根据不同的CPU,熟练使用相应的嵌入汇编,可以大大提高程序执行的效率。
虽然是必杀技,但是如果轻易使用会付出惨重的代价。这是因为,使用了嵌入汇编,便限制了程序的可移植性,使程序在不同平台移植的过程中,卧虎藏龙,险象环生!同时该招数也与现代软件工程的思想相违背,只有在迫不得已的情况下才可以采用。
第六招, 使用寄存器变量 当对一个变量频繁被读写时,需要反复访问内存,从而花费大量的存取时间。为此,C语言提供了一种变量,即寄存器变量。这种变量存放在CPU的寄存器中,使用时,不需要访问内存,而直接从寄存器中读写,从而提高效率。寄存器变量的说明符是register。对于循环次数较多的循环控制变量及循环体内反复使用的变量均可定义为寄存器变量,而循环计数是应用寄存器变量的最好候选者。
(1) 只有局部自动变量和形参才可以定义为寄存器变量。因为寄存器变量属于动态存储方式,凡需要采用静态存储方式的量都不能定义为寄存器变量,包括:模块间全局变量、模块内全局变量、局部static变量;
(2) register是一个"建议"型关键字,意指程序建议该变量放在寄存器中,但最终该变量可能因为条件不满足并未成为寄存器变量,而是被放在了存储器中,但编译器中并不报错(在C++语言中有另一个"建议"型关键字:inline)。
下面是一个采用寄存器变量的例子:
/* 求1+2+3+….+n的值 */
WORD Addition(BYTE n) { register i,s=0; for(i=1;i<=n;i++) { s=s+i; } return s; }
本程序循环n次,i和s都被频繁使用,因此可定义为寄存器变量。
第七招: 利用硬件特性
首先要明白CPU对各种存储器的访问速度,基本上是:
CPU内部RAM > 外部同步RAM > 外部异步RAM > FLASH/ROM
对于程序代码,已经被烧录在FLASH或ROM中,我们可以让CPU直接从其中读取代码执行,但通常这不是一个好办法,我们最好在系统启动后将FLASH或ROM中的目标代码拷贝入RAM中后再执行以提高取指令速度;
对于UART等设备,其内部有一定容量的接收BUFFER,我们应尽量在BUFFER被占满后再向CPU提出中断。例如计算机终端在向目标机通过RS-232传递数据时,不宜设置UART只接收到一个BYTE就向CPU提中断,从而无谓浪费中断处理时间;
如果对某设备能采取DMA方式读取,就采用DMA读取,DMA读取方式在读取目标中包含的存储信息较大时效率较高,其数据传输的基本单位是块,而所传输的数据是从设备直接送入内存的(或者相反)。DMA方式较之中断驱动方式,减少了CPU 对外设的干预,进一步提高了CPU与外设的并行操作程度。
--------------------------------------------------------------------------------------------------------------------------------------------------------- ARM嵌入式开发-高效C编程
C数据类型的有效用法 1 对于存放在寄存器中的局部变量,除了8位或16位的算术模运算外,尽量不要使用char 和short,而要使用有符号或无符号int 类型。除法运算时使用无符号数执行速度更快。
2 对于放在主存储器中的数组和全局变量,在满足数据大小情况下,尽量使用小尺寸的数据类型,这样做可以节省存储空间,ARMv4体系结构可以有效地装载和存储所有宽度的数据,并可以使用递增数组指针来有效访问数组。对于short类型数组,要避免使用数组基地址的偏移量,因为LDRH指令不支持偏移寻址。
3通过读取数组或者全局变量并赋给不同类型的局部变量时,或者把局部变量写入不同类型的数组或全局变量时,要进行显示数据类型转换,这种转换使编译器可以明确快速地处理,把存储器中的数据类型比较窄的数据类型扩展,并赋值给寄存器中比较宽的类型。
4由于隐式或者显示的数据类型转换通常有额外的指令开销,要尽量避免。load 和store自动完成类型转换,无开销。
5对于函数参数和返回值应该尽量避免使用char 和short。防止编译器做不必要的类型转换。
/////
高效循环 1使用减计数到0的循环结构,这样就不需要分配一个寄存器来保存终止值,与0比较的指令也省略
2使用无符号的循环计数值,循环条件为i!=0而不是i>0,这样可以保障循环开销只有2条指令
3如果实现知道循环体至少会执行一次,那么使用do-while比for好,这样可以使编译器省去检查循环计数是否为0的步骤。
4展开重要的循环体可以降低循环开销,但不要过度展开。如果循环的开销对整个程序来说占的比重很小,那么循环的展开反而增加代码量并降低cache 性能。
5尽量使数组的大小是4或8的整数倍,这样可以容易地以2,4,8次等多种选择展开循环,而不用担心剩余数组元素的问题。
///////
寄存器分配 1尽量限制函数内部循环所用的局部变量的数目,最多不超过12个,这样可以把变量分配给寄存器。
2可以引导编译器,通过查看是否属于最内层循环的变量来确定某个变量的重要性。
///////
调用函数 1尽量限制函数的参数,不要超过4个,这样调用的效率会高。也可将相关参数组织在结构中 ,传递结构的指针
2把比较小的被调用函数和调用函数放在同一个源文件中并且要先定义,后调用,编译器会优化函数调用活内联比较小的函数。
3对性能影响较大的重要函数,可使用关键字 _inline进行内联。
//////
指针别名 1不要依赖编译器来消除存储器访问的公共子表达式,而应建立一个新的,局部变量来保存这个表达式的值这样可以保证只对这个表达式求一次值;
2避免使用局部变量的地址,否则对这个变量的访问效率比较低
//////
结构安排 1结构体元素要按照元素大小来排列,最小的元素方在最前面,
2避免使用很大的结构,可以使用层次化的小结构代替;
3为了提高可移植性,人工对API结构体增加填充位,这样结构体的安排不依赖于编译器。
4在API结构体中谨慎使用枚举类型,枚举类型是编译器相关的。
/////
位域 1尽量避免使用位域,而使用#define 或者enum来定义屏蔽位;
2使用 整型逻辑运算AND OR 异或对位域进行测试 取反 设置。这些操作编译效率高。还可以对多个位域进行操作。
/////
字节排列方式和边界对齐 1尽量避免使用边界不对齐数据
2使用类型char * 可指向任意字节边界的数据。通过读字节来访问数据,使用逻辑操作来组合数据,这样代码不会依赖边界是否对齐或ARM的字节排列顺序的配置
3为了快速访问边界不对齐的结构体,可以根据指针边界和处理器的字节顺序写出不同的程序 变体
//////////
除法 1尽可能避免使用除法,对环形缓冲区的处理可以不使用除法
2如果不可能避免,那么尽可能考虑使用除法的同时产生商n/d和余数n%d所谓好处
3对于重复对同一除数的d的除法,预先计算好s=(2^k -1)/d 。可用乘以s 的2k位乘法来代替除以d的k位无符号整数除法。
4为无符号被除数n<2^N,除数的无符号的常数d的除法,可以找到一个32位的无符号数s和移位k,满足n/d或是(ns)>>(N+k),或是(ns+s)>>(N+k),究竟是哪一个,由d决定。对有符号,类似。
/////////
内联函数和内联汇编 1使用内联函数来声明新的操作或者C编译器不支持的操作。
2使用内联汇编可以利用到C编译器不支持的ARM指令,比如协处理器指令或扩展指令。
|
|
|
|