探究操作系统的内存分配（malloc）对齐策略

西北望msm66g9f 2016-12-16

展开全文

来自：大熊先生_博客园
链接：http://www.cnblogs.com/Creator/archive/2012/04/05/2433386.html（点击尾部阅读原文前往）

问题：

我们在写程序的时候经常发现程序使用的内存往往比我们申请的多，为了优化程序的内存占用，搅尽脑汁想要优化内存占用，可是发现自己的代码也无从优化了，怎么办？现在我们把我们的焦点放到malloc上，毕竟我们向系统申请的内存都是通过它完成了，不了解他，也就不能彻底的优化内存占用。

来个小例子

//g++ -o malloc_addr_vec  mallc_addr_vec.cpp 编译   
#include   
using namespace std;   int main(int argc, char *argv[])   {       int malloc_size = atoi(argv[1]);       char * malloc_char;       for (size_t i = 0; i <>1024*1024; ++i) {           malloc_char = new char[malloc_size];       }       while (1) {}//此时查看内存占用       return 0;   }

本文的测试环境为Linux 64Bit ,使用G++编译为可执行文件后，使用不同的启动参数启动，使用top命令查看程序占用的内存，这里我们主要是看RES指标

RES -- Resident size (kb)

The non-swapped physical memory a task has used.

测试案例：

1、每次new 1 Byte Do 1024*1024次

./malloc_addr_vec 1

启动程序后的内存占用

内存消耗 32MB

2、每次new 24 Byte Do 1024*1024次

./malloc_addr_vec 24

启动程序后的内存占用

内存消耗32MB

3、每次new 25 Byte Do 1024*1024次

/malloc_addr_vec 25

启动程序后的内存占用

内存消耗48MB

为什么我们每次new 1Byte 和每次 new 24Byte系统消耗的内存一样呢？，为什么每次new 25Byte和每次new 24Byte占用的内存完全不同呢？

不知道大家在写程序的时候有没有关注过这个问题。我一次遇到时，吐槽一句：What the fuck malloc.

原因分析：

在大多数情况下，编译器和C库透明地帮你处理对齐问题。POSIX 标明了通过malloc( ), calloc( ), 和 realloc( ) 返回的地址对于任何的C类型来说都是对齐的。

对齐参数（MALLOC_ALIGNMENT）大小的设定并需满足两个特性

1、必须是2的幂

2、必须是(void *)的整数倍

至于为什么会要求是(void *)的整数倍，这个目前我还不太清楚，等你来发现...

根据这个原理，在32位和64位的对齐单位分别为8字节和16字节

但是这并解释不了上面的测试结果，这是因为系统malloc分配的最小单位（MINSIZE）并不是对齐单位

为了进一步了解细节，从GNU网站中把glibc源码下载下来，查看其 malloc.c文件

#ifndef INTERNAL_SIZE_T        
#define INTERNAL_SIZE_T size_t        
#endif        
#define SIZE_SZ                (sizeof(INTERNAL_SIZE_T))        
#ifndef MALLOC_ALIGNMENT        
#define MALLOC_ALIGNMENT       (2 * SIZE_SZ)        
#endif        
struct malloc_chunk {          INTERNAL_SIZE_T      prev_size;  /* Size of previous chunk (if free).  */     INTERNAL_SIZE_T      size;       /* Size in bytes, including overhead. */     struct malloc_chunk* fd;         /* double links -- used only if free. */    struct malloc_chunk* bk;        };            An allocated chunk looks like this:            chunk-> +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+               |             Size of previous chunk, if allocated            | |               +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+                    |             Size of chunk, in bytes                       |M|P|        mem-> +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+              |             User data starts here...                          .                    .                                                               .                    .             (malloc_usable_size() bytes)                      .                    .                                                               |        nextchunk-> +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+                    |             Size of chunk                                     |                    +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+        
#define MALLOC_ALIGN_MASK      (MALLOC_ALIGNMENT - 1)        
#define MIN_CHUNK_SIZE        (sizeof(struct malloc_chunk))        
#define MINSIZE  /          (unsigned long)(((MIN_CHUNK_SIZE+MALLOC_ALIGN_MASK) & ~MALLOC_ALIGN_MASK))        
/* pad request bytes into a usable size -- internal version */

#define request2size(req)                                         /          (((req) + SIZE_SZ + MALLOC_ALIGN_MASK < minsize)=""  ?=""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  ="" minsize="" :=""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  =""  /=""  =""  =""  =""  =""  ="" ((req)="" +="" size_sz="" +="" malloc_align_mask)="" &="">

其中request2size这个宏就是glibc的内存对齐操作，MINSIZE就是使用malloc时占用内存的最小单位。根据宏定义可推算在32位系统中MINSIZE为16字节，在64位系统中MINSIZE一般为32字节。从request2size还可以知道，如果是64位系统，申请内存为1~24字节时，系统内存消耗32字节，当申请内存为25字节时，系统内存消耗48字节。如果是32位系统，申请内存为1~12字节时，系统内存消耗16字节，当申请内存为13字节时，系统内存消耗24字节。

一般他们的差距是一个指针大小，计算公式是

max(MINSIZE,in_use_size)

其中in_use_size=(要求大小+2*指针大小-指针大小)align to MALLOC_ALIGNMENT

(对于上面计算的由来可以参见glibc 内存池管理 ptmalloc这篇文章的第4节chuck部分以及搜一下malloc的内部实现源码）

为了证明这个理论的正确性，我们需要计算一次malloc到底花掉了多少内存，我们用如下代码分别在32bit Linux和 64bit Linux上做测试

#include   
#include   
int main()   {           char * p1;           char * p2;           int i=1;           printf('%d\n',sizeof(char *));           for(;i100;i++)           {                   p1=NULL;                   p2=NULL;                   p1=(char *)malloc(i*sizeof(char));                   p2=(char *)malloc(1*sizeof(char));                   printf('i=%d     %d\n',i,(p2-p1));           }           getchar();   }

其测试结果如下：

32bit

---------------------   Linux  32bit   ---------------------    4   
i=1 16   
i=2 16   
i=3 16   
i=4 16   
i=5 16   
i=6 16   
i=7 16   
i=8 16   
i=9 16   
i=10 16   
i=11 16   
i=12 16   
i=13 24   
i=14 24   
i=15 24   
i=16 24   
i=17 24   
i=18 24   
i=19 24   
i=20 24   
i=21 32   
i=22 32  
i=23 32   
i=24 32   
i=25 32   
i=26 32   
i=27 32   
i=28 32   
i=29 40   
i=30 40   
i=31 40   
i=32 40   
i=33 40   
i=34 40   
i=35 40   
i=36 40   
i=37 48   
i=38 48   
i=39 48   
i=40 48   
i=41 48   
i=42 48   
i=43 48   
i=44 48   
i=45 56   
i=46 56   
i=47 56   
i=48 56   
i=49 56   
i=50 56   
i=51 56   
i=52 56   
i=53 64   
i=54 64   
i=55 64   
i=56 64   
i=57 64   
i=58 64   
i=59 64   
i=60 64   
i=61 72   
i=62 72   
i=63 72   
i=64 72   
i=65 72   
i=66 72   
i=67 72   
i=68 72   
i=69 80   
i=70 80   
i=71 80   
i=72 80   
i=73 80  
i=74 80  
i=75 80   
i=76 80   
i=77 88   
i=78 88   
i=79 88   
i=80 88   
i=81 88   
i=82 88   
i=83 88   
i=84 88   
i=85 96   
i=86 96   
i=87 96   
i=88 96   
i=89 96   
i=90 96   
i=91 96   
i=92 96   
i=93 104   
i=94 104   
i=95 104  
i=96 104   
i=97 104   
i=98 104   
i=99 104

64bit

-------------------   Linux  64bit   -------------------    8   
i=1 32   
i=2 32   
i=3 32   
i=4 32   
i=5 32   
i=6 32   
i=7 32   
i=8 32   
i=9 32   
i=10 32   
i=11 32   
i=12 32   
i=13 32   
i=14 32   
i=15 32   
i=16 32   
i=17 32   
i=18 32   
i=19 32   
i=20 32   
i=21 32   
i=22 32   
i=23 32   
i=24 32   
i=25 48   
i=26 48   
i=27 48   
i=28 48   
i=29 48   
i=30 48   
i=31 48   
i=32 48   
i=33 48   
i=34 48   
i=35 48   
i=36 48   
i=37 48   
i=38 48   
i=39 48   
i=40 48   
i=41 64   
i=42 64   
i=43 64   
i=44 64   
i=45 64   
i=46 64   
i=47 64   
i=48 64   
i=49 64   
i=50 64   
i=51 64   
i=52 64   
i=53 64   
i=54 64   
i=55 64   
i=56 64   
i=57 80   
i=58 80   
i=59 80   
i=60 80   
i=61 80   
i=62 80   
i=63 80   
i=64 80   
i=65 80   
i=66 80   
i=67 80   
i=68 80   
i=69 80   
i=70 80   
i=71 80   
i=72 80   
i=73 96   
i=74 96   
i=75 96   
i=76 96   
i=77 96   
i=78 96   
i=79 96   
i=80 96   
i=81 96   
i=82 96   
i=83 96   
i=84 96   
i=85 96   
i=86 96   
i=87 96   
i=88 96   
i=89 112   
i=90 112   
i=91 112   
i=92 112   
i=93 112   
i=94 112   
i=95 112   
i=96 112   
i=97 112   
i=98 112   
i=99 112