Linux内核之内存管理

joy_chen 2013-04-14

展开全文

http://blog./uid-27052262-id-3237894.html

把linux内存管理分为下面四个层面

（一）硬件辅助的虚实地址转换

（二）内核管理的内存相关

（三）单个进程的内存管理

（四）malloc软件

（一）处理器硬件辅助的虚实地址转换（以x86为例）

在x86中虚实地址转换分为段式转换和页转换。段转换过程是由逻辑地址（或称为虚拟地址）转换为线性地址；页转换过程则是将线性地址转换为物理地址。段转换示意图如下

X86支持两种段，gdt和ldt（全局描述段表和局部描述符段表），在linux中只使用了4个全局描述符表，内核空间和用户空间分别两个gdt，分别对应各自的代码段和数据段。也可以认为在linux中变相地disable了x86的段式转换功能。

页转换示意图如下

在linux中x86 的cr3寄存器（页表基地址寄存器）保存在进程的上下文中，在进程切换时会保存或回复该寄存器的内容，这样每个进程都有自己的转换页表，从而保证了每个进程有自己的虚拟空间。

（二）内核管理的内存相关

从几个概念展开内存管理：node、zone、buddy、slab

1、Node

SGI Altix3000系统的两个结点

如上图，NUMA系统的结点通常是由一组CPU（如，SGI Altix 3000是2个Itanium2 CPU）和本地内存组成。由于每个结点都有自己的本地内存，因此全系统的内存在物理上是分布的，每个结点访问本地内存和访问其它结点的远地内存的延迟是不同的，为了优化对NUMA 系统的支持，引进了Node 来将NUMA 物理内存进行划分为不同的Node。而操作系统也必须能感知硬件的拓扑结构，优化系统的访存。

但是Intel x86 系统不是NUMA 系统。为了保持代码的一致性，在x86 平台上，Linux 将所有物理内存都划分到同一个Node。事实上，对于非NUMA 体系结构，也是如此处理的。

Linux系统用定义了数组pg_data_t node_data[MAX_NUMNODES] 来管理各个node。

2、Zone

Linux中Node、Zone和页的关系

每个结点的内存被分为多个块，称为zones，它表示内存中一段区域。一个zone用struct zone结构描述，zone的类型主要有ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM。ZONE_DMA位于低端的内存空间，用于某些旧的ISA设备。ZONE_NORMAL的内存直接映射到Linux内核线性地址空间的高端部分，ZONE_HIGHMEM位于物理地址高于896MB的区域。例如，在X86中，zone的物理地址如下：

内核空间只有1GB线性地址，如果使用大于1GB的物理内存就没法直接映射到内核线性空间了。当系统中的内存大于896MB时，把内核线性空间分为两部分，内核中低于896MB线性地址空间直接映射到低896MB的物理地址空间；高于896MB的128MB内核线性空间用于动态映射ZONE_HIGHMEM内存区域（即物理地址高于896MB的物理空间）。

3、Buddy

如上图所示，每个zone区域都采用伙伴系统（buddy system）来管理空闲内存页面。把所有的空闲页框分组为11个块链表，每个块链表分别包含大小为1，2，4，8，16，32，64，128，256，512和1024个连续的页框。链表编号分别为0，1，2，3，… k… 10。

从buddy system中申请页面过程：

1、根据申请存储区域大小查找对应的编号为K的块链表。

2、如果编号K的链表为空，则向编号为k+1的链表申请一个存储区域。如果编号为k+1链表不为空，系统从编号为k+1的链表上拆下一个区域，并将拆下的区域分为两个2^k的区域，一个返还给申请者，另一个则挂到编号为k的链表。

3、如果编号为k+1的链表也为空，编号为k+2的链表不为空。则从k+2的链表中拆下一个区域变为两个2^(k+1)区域，一个挂到编号为k+1的链表上，把另一个拆为两个2^k的区域，一个返还给申请者，把另一个挂到编号为k的链表上。

4、如果k+2的链表也为空，则一直向上迭代，直到编号为10的链表为止，如果编号为10的链表还为空，则申请失败。

向buddy system中释放页面过程：

在向buddy system 释放页面时，总会检测释放的页面和链表中其他页面是否可以组成一个更大一级的页面，如果可以组成，则把这两个区域组成一个并挂到更高一级的链表中。这个过程是迭代的，释放过程会一层层向上找伙伴，然后合并成更大的，再向上找伙伴，实在找不到了就停止了！

疑问：按照上面的说法，是否会出现这种情况，在释放某个页面导致所有页面都组成了标号为10的连续页面了。等到再需要分配1个页面时，又要一级一级地拆分。这样的话效率是否很低？？

是否在buddy system 每个链表结构中设一个门限值会更好？释放时标记一下可以组成buddy的两个连续区域，只有该级空闲的区域个数超过门限后才组成buddy并挂到上一级链表上。当然，这个门限值可以由内核根据目前总的空闲页面数量进行动态调整。

4、Slab

下图中给出了 slab 结构的高层组织结构。在最高层是 cache_chain，这是一个 slab 缓存的链接列表。可以用来查找最适合所需要的分配大小的缓存。cache_chain 的每个元素都是一个 kmem_cache 结构的引用。一个kmem_cache中的所有object大小都相同。

slab 分配器的主要结构

slab是基于buddy system的，每个slab占用一个或多个连续页，即一个buddy链中的1个或多个页面。

每个缓存都包含了一个 slabs 列表，这是一段连续的内存块（通常都是页面）。存在 3 种 slab：

slabs_full

完全分配的 slab ，即其维护的空闲object链表为空

slabs_partial

部分分配的 slab

slabs_empty

空 slab，或者没有对象被分配，即其inuse标志位0.

注意 slabs_empty 列表中的 slab 是进行回收的主要备选对象。正是通过此过程，slab 所使用的内存被返回给操作系统供其他用户使用。

slab 列表中的每个 slab 都是一个连续的内存块（从buddy申请的一个或多个连续页），它们被划分成一个个对象，这些对象是分配和释放的基本元素。在slab扩展时或把slab占用的内存块释放到buddy系统时， slab是最小分配单位。通常来说，每个 slab 被分配为多个对象。由于对象是从 slab 中进行分配和释放的，因此单个 slab 可以在 slab 列表之间进行移动。例如，当一个 slab 中的所有对象都被使用完时，就从 slabs_partial 列表中移动到 slabs_full 列表中。当一个 slab 完全被分配并且有对象被释放后，就从 slabs_full 列表中移动到 slabs_partial 列表中。当所有对象都被释放之后，就从 slabs_partial 列表移动到 slabs_empty 列表中。

slab 背后的动机

与传统的内存管理模式相比， slab 缓存分配器提供了很多优点。首先，内核通常依赖于对小对象的分配，它们会在系统生命周期内进行无数次分配。slab 缓存分配器通过对类似大小的对象进行缓存而提供这种功能，从而避免了常见的碎片问题。slab 分配器还支持通用对象的初始化，从而避免了为同一目而对一个对象重复进行初始化。最后，slab 分配器还可以支持硬件缓存对齐和着色，这允许不同缓存中的对象占用相同的缓存行，从而提高缓存的利用率并获得更好的性能。

（三）单个进程的内存管理

每个进程的task_struct中都有一个active_mm成员，类型为struct mm_struct，内核就是利用该成员管理进程虚拟空间的。参见数据结构task_struct，为了方便阅读，删除了该结构中无关的成员变量。

struct task_struct{

struct mm_struct *mm, *active_mm;

}

参考下面的数据结构定义。数据结构struct mm_struct 中的成员mm_rb指向了一棵红黑树的根，该进程的所有申请的虚拟空间都以起始虚拟地址为红黑树的key值挂到了这棵红黑树上。mm_struct 中的成员map_count指示该进程拥有的虚拟空间的个数，pgd指向该进程的页转换表。

struct mm_struct{

struct vm_area_struct * mmap; /* list of VMAs 指向若干个VMA组成的链表 */

struct rb_root mm_rb; 指向一棵红黑树

struct vm_area_struct * mmap_cache; 指向最近找到的虚拟存储区域

int map_count; /* number of VMAs */ 虚拟区间的个数

pgd_t * pgd; 指向页转换表

}

数据结构struct vm_area_struct定义了一个连续的虚拟地址空间，包括起始地址和结束地址，以及红黑树节点vm_rb。内核就是以vm_start为key值把vm_rb挂到进程内存红黑树上的。

struct vm_area_struct{

struct mm_struct * vm_mm; /* The address space we belong to. */

unsigned long vm_start; /* Our start address within vm_mm. */

unsigned long vm_end; /* The first byte after our end address within vm_mm. */

struct rb_node vm_rb; 这个虚拟区域对应的红黑树的节点

}

内核在给进程分配了一块虚拟地址内存块后，就将该区域挂接到进程的红黑树上，此时内核尚未给该进程分配实际的内存。在进程访问该区域时则产生缺页中断，在中断中检查访问的区域已经分配给进程后，则分配实际内存页面，并更新该进程的页转换查找表。中断返回，进程重新执行触发中断的指令，并继续运行。

当进程释放一块内存区域后，内核会立即收回分配给该区域的物理内存页面。

（四） malloc软件

下面内容节选自文章《内存相关分享》，连接为http://www./CppExplore/archive/2010/03/30/111049.html

应用层面的开发并不是直接调用sbrk/mmap之类的函数，而是调用malloc/free等malloc子系统提供的函数，linux上安装的大多为DougLea的dlmalloc或者其变形ptmalloc。下面以dlmalloc为例说明malloc工作的原理。
1 dlmalloc下名词解释：
   boundary tag: 边界标记，每个空闲内存块均有头部表识和尾部标识，尾部表识的作为是合并空闲内存块时更快。这部分空间属于无法被应用层面使用浪费的内存空间。
   smallbins: 小内存箱。dlmalloc将8,16,24......512大小的内存分箱，相临箱子中的内存相差8字节。每个箱子中的内存大小均相同，并且以双向链表连接。
   treebins: 树结构箱。大于512字节的内存不再是每8字节1箱，而是一个范围段一箱。比如512~640, 640~896.....每个箱子的范围段依次是128，256，512......。每箱中的结构不再是双向链表，而是树形结构。
   dv chunk:  当申请内存而在对应大小的箱中找不到大小合适的内存，则从更大的箱中找一块内存，划分出需要的内存，剩余的内存称之为dv chunk.
   top chunk: 当dlmalloc中管理的内存都找不到合适的内存时，则调用sbrk从系统申请内存，可以增长内存方向的chunk称为top chunk.
2 内存分配算法
        从合适的箱子中寻找内存块-->从相临的箱子中寻找内存块-->从dv chunk分配内存-->从其他可行的箱子中分配内存-->从top chunk中分配内存-->调用sbrk/mmap申请内存
3 内存释放算法
       临近内存合并-->如属于top chunk，判断top chunk>128k，是则归还系统
                              -->不属于chunk，则归相应的箱子

dlmalloc还有小内存缓存等其他机制。可以看出经过dlmalloc，频繁调用malloc/free并不会产生内存碎片，只要后续还有相同的内存大小的内存被申请，仍旧会使用以前的合适内存，除非大量调用malloc之后少量释放free，并且新的malloc又大于以前free的内存大小，造成dlmalloc不停的从系统申请内存，而free掉的小内存因被使用的内存割断，而使top chunk<128k，不能归还给系统。即便如此，占用的总内存量也小于的确被使用的内存量的2倍（使用的内存和空闲的内存交叉分割，并且空闲的内存总是小于使用的内存大小）。因此可以说，在没有内存泄露的情况，常规频繁调用malloc/free并不会产生内存碎片。