使用C编译器产生清晰的二进制文件

billdoors 2007-01-21

展开全文

一.向函数传递参数:
1.C函数调用惯例:参数是以反序压入栈中的.
(1)调用函数(caller)把函数的参数一个一个地按反序压入栈(从右向左,所以第一个被指定的函数参数最后一个被压进去).
(2)然后调用函数执行一个caller指令把控制权交给被调函数(callee).
(3) 被调函数收到控制权,一般地(这并不是必要的,因为有的函数不必去访问它们的参数),先把ESP中的值放入EBP中,以使EBP成为一个基址指针,从而用 EBP去访问栈中的参数.然而调用函数也可能做了这个,所以惯例是EBP必须被任何C函数保存.因此被调用者函数,如果它要把EBP作为一个帧指针,必须先把以前的值压入栈.
(4)被调函数然后就可以用EBP去访问它的参数了.在[EBP]处的双字(dword)存放了先前压入的EBP的值.下一个双字[EBP+4],存入了返回地址,它是由CALL隐式地压入的.
真正的参数从[EBX+8]开始.最左边的参数由于是最后入栈的,可用这个偏移量进行访问;余下的参数,在余下的更高的偏移量上.因此,在像printf这样的函数里,它可以跟可变的函数参数.但我们可以找到它的第一个参数,从而知道余下的参数的个数和类型.
(5)被调函数也可能希望减低ESP的大小,以给局部变量分配空间,这些局部变量将用EBP的负偏移量进行访问.
(6)被调函数如果想返回一个值给调用函数,应当把其值放到AL,AX或EAX中,这取决于返回值的大小.浮点数一般放在ST0中.
(7)一旦被调函数完成了任务,如果它已经分配了本地栈空间,它把ESP的值从EBP中恢复然后弹出原来EBP的值,最后通过RET返回.
(8) 当调用函数从被调函数重新得到控制权的时候,函数的参数认然在栈中,所以一般可以将ESP加上一个常数来移除它们(而不是选用一系列慢的POP指令).所以,如果一个函数偶然地输入与原形不一样的错误的参数个数,栈仍然能回到一个智能的状态.因为调用函数知道压入了多少个参数,所以它也能正确地移掉它们.
2.例子:
char res;/*global variable*/
char f(char a,char b);/* function prototype*/
int main(){/*entry point */
res=f(0x12,0x23); /*function call*/
}
char f(char a,char b){ /*function definition*/
return a+b; /*return code*/
}
它将会产生如下的二进制代码:
00000000 55 push ebp
00000001 89E5 mov ebp,esp
00000003 6A23 push byte+0x23
00000005 6A12 push byte+0x12
00000007 E810000000 call 0x1c
0000000C 83c408 add esp,byte+0x8
0000000F 88c0 mov al,al
00000011 880534120000 mov [0x1234],al
00000017 C9 leave
00000018 C3 ret
00000019 8D7600 lea esi,[esi+0x0]
0000001C 55 push ebp
0000001D 89E5 mov ebp,esp
0000001F 83EC04 sub esp,byte+0x4
00000022 53 push ebx
00000023 8B5508 mov edx,[ebp+0x8]
00000026 8B4D0C mov ecx,[ebp+0xc]
00000029 8855FF mov [ebp-0x1],dl
0000002C 884DFE mov [ebp-0x2],cl
0000002F 8A45FF mov al,[ebp-0x1]
00000032 0245FE add al,[eb0-0x2]
00000035 0FBED8 movsx ebx,al
00000038 89D8 mov eax,ebx
0000003A EB00 jmp short 0x3c
0000003C 8B5DF8 mov ebx,[ebp-0xi]
0000003F C9 leave
00000040 C3 ret
3.剖析:
在压入两个字节的参数到栈中后,随即有一个调用在0X1C处的函数的CALL.这个函数首先将esp减4个字节,作为本地变量使用.然后这个函数把函数参数拷贝到本地.然后a+b被计算并存放在eax中返回.
二.赋值:
main(){
unsigned int i=251;
}
当我们把这个编译成平的二进制文件时,我们得到:
00000000 55 push ebp
00000001 89E5 mov ebp,esp
00000003 83EC04 sub esp,byte+0x4
00000006 C745FCFB000000 mov dword [ebp-0x4],0xfb
0000000D C9 leave
0000000E C3 ret
当我们把赋值语句改成:
unsigned int i=-5;
我们在地址0x6处得到了下面的指令:
00000006 C745FCFBFFFFFF mov dword [ebp-0x4],0xfffffffb
现在让我们看一看有符号整数.语句:int i=251;
产生:
00000006 C745FCFB000000 mov dword [ebp-0x4],0xfb
一个使用负数的语句:
int i=-5;
产生了:
00000006C745FCFBFFFFFF mov dword [ebp-0x4],0xfffffffb
看起来像是有符号和无符号的赋值被一样对待了.
三.把signed char转换成signed int:
main(){
char c=-5;
int i;
i=c;
}
产生了如下的二进制文件:
00000000 55 push ebp
00000001 89E5 mov ebp,esp
00000003 83EC08 sub esp,byte+0x8
00000006 0645FFFB mov byte [ebp-0x1],0xfb
0000000A 0FBE45EF movsx eax,byte [ebp-0x1]
0000000E 8945F8 mov [ebp-0x8],eax
00000011 C9 leave
00000012 C3 ret
剖析:
首先我们看到在地址0x3处在栈中为本地变量c和i保留了8个字节.编译器使用8个字节以使其对齐整数i.然后我们可以看到char c被0xfb填充,也就是-5(0xfb=251,251-256=-5).注意编译器使用[ebp-0x1]而不是使用 [ebp-0x4].这是由于小端表示法的缘故.下一个movsx才真真正做了从signed char到 signed int的转换.MOVSX指令对源操作数进行符号扩展然后拷贝到目标操作数.在leave前的最后一个指令把存储在eax中的数据传到int i中.
四.将signed int转换成signed char
main(){
char c;
int i=-5;
c=i;
}
将产生如下的二进制代码：
00000000 55 push esb
00000001 89E5 mov ebp,esp
00000003 83EC08 sub esp,byte+0x8
00000006 C745F8FBFFFFFF mov dword [ebp-0x8],0xfffffffb
0000000D 8A45F8 mov al,[ebp-0x8]
00000010 8845FF mov [ebp-0x1],al
00000013 C9 leave
00000014 C3 ret
剖析：c=i这句只有在值在-128(-2^7)到127(2^7-1)之间的时候才有意义。因为它必须要在signed char的范围内。0xfffffffb实际上就是-5。当我们只看那个不太重要的0xfb字节并把它变成一个signed char时，我们同样也可以得到-5.所以从一个signed int转换成一个signed char我们也可以只用一个简单的mov指令.
五.把unsigned char转换为unsigned int
main(){
unsigned char c=5;
unsigned int i;
i=c;
}
将产生如下的二进制文件：
00000000 55 push ebp
00000001 89E5 mov ebp,esp
00000003 83EC08 sub esp,byte+0x8
00000006 C645FF05 mov byte [ebp-0x1],0x5
0000000A 0FB645FF movzx eax,byte [ebp-0x1]
0000000E 8945F8 mov [ebp-0x8],eax
00000011 C9 leave
00000012 C3 ret
剖析：除了在0xA处的指令外，我们得到了和从signed char到signed int一样的代码。这里我们的指令是movzx。MOVZX将源操作数零扩展，然后拷贝到目标操作数。
六.把unsigned int转换为unsigned char
main(){
unsigned char c;
unsigned int i=251;
c=i;
}
将产生如下的二进制代码：
00000000 55 push ebp
00000001 89E5 mov ebp,esp
00000003 83EC08 sub esp,byte+0x8
00000006 C745F8FB000000 mov dword [ebp-0x8],0xfb
0000000D 8A45F8 mov al,[ebp-0x8]
00000010 8845FF mov [ebp-0x1],al
00000013 C9 leave
00000014 C3 ret
剖析：整数的值严格限制在0到255(2^8-1)之间。这是因为unsigned char不能处理更大的数了。在0xD处的mov是真正做转换的指令，它和从signed int到signed char的转换是一样的。