【干货】一文搞懂CPU的工作原理

imnobody2001 2024-01-29 发布于广东

展开全文

各位看官，小生三体智人，这厢有礼了，是一名新生代IT民工。

中央处理器（Central Processing Unit，简称CPU）是一块由超大规模集成电路组成的运算和控制核心，主要功能是运行指令和处理数据。

CPU是计算机系统中的核心组件，从诞生到现在，主要在两个维度上做了很大的提升，一个是制造工艺，另一个是设计思想，需要回顾下计算机体系结构。

在第一台计算机诞生时，很多逻辑都是硬化在电路板上，软硬件耦合严重，这就导致一旦修改程序，就要重新组装电路板的问题，使得编程效率很低。当时，冯·诺依曼提出了一个至关重要的设计思路：计算机要有一定的逻辑结构，将软硬件分离，要求CPU顺序地从存储器中取出指令和数据，然后进行相应的计算。

其确定了计算机的五个基本组成部分：运算器、控制器、存储器、输入设备、输出设备。其中指令、数据都是存在主（内）存储器中，以便于CPU在工作时，能够高速地从存储器中提取指令，并加以分析和执行。程序、数据的最终形态都是二进制编码，存储在存储器中，二进制编码也是CPU能够识别、执行的编码。

冯·诺依曼体系结构

其实，冯·诺依曼体系结构存在一些问题，但是人们在它之上做了改进：

1）指令和数据公用内存，即指令和数据都存在一个存储器上，并通过一个系统总线进行访问。由于主存的读写速度跟不上CPU运行速度，所以在CPU和主存间增加了高速缓存，并在L1高速缓存中区分了指令缓存和数据缓存，进一步提升系统总线访问速度。(扩充：为了解决指令和数据共用系统总线带来速度慢的问题，又提出了哈佛架构，即将指令和数据分别存放在不同的主存上，可以并行访问，但由于哈佛架构复杂，不适合外部主存的扩展，所以并未得到广泛应用。）

2）指令顺序指令：指令只能顺序，在一个pipe上运行。为了提升指令运行速度增加了，乱序执行、多级流水线、分支预测等功能。

目前，现在计算机的主流框架方案是采用CPU+外部存储，其中CPU内部包含CPU核心（Core）、内存映射单元（MMU）、缓存（Cache）等组成。

CPU+外部存储的框架

1）CPU核心（Core）：根据指令进行各种处理的电子电路。一般由控制器、运算器、寄存器组成。

控制器，(Control Unit，简称CU），是计算机的指挥中心，只有在它的控制下，整个CPU才能够有条不紊地工作、自动执行程序。CU包括指令寄存器、指令计数器，其中指令寄存器存放当前正在执行的指令，指令计数器总是指向下一条要执行指令的地址。

运算器，是一个负责算术运算和逻辑运算的模块，主要包含算术逻辑单元(Arithmetic Logic Unit，简称ALU）和浮点运算单元（Floating Point Unit，简称FPU）。ALU的主要功能：在控制信号的作用下，完成加、减、乘、除等算术运算，以及与、或、非、异或等逻辑运算以及移位、补位等运算。FPU主要负责浮点运算和高精度整数运算。有些FPU还具有向量运算的功能。

寄存器，主要功能是存储数据、地址及指令，并且能够高速、自动地完成数据的存储。寄存器是有记忆功能的器件，而且采用两种稳定状态0或1来记录数据信息，所以CPU中的程序和数据，都要转换为二进制才可以存储和操作。寄存器也是由与、或、非逻辑门电路组成的。

2）内存映射单元（Memory Map Unit，简称MMU），指的是将虚拟地址转化成物理地址的模块。MMU包含了两个模块：页表查找表（Table Lookup Buffer，简称TLB）和页表遍历单元（Table Walk Unit，简称TWU）。

TLB是一个高速缓存，用于缓存页表转换的结果，从而减少页表查询的时间。一个完整的页表翻译和查找的过程叫做页表查询，页表查询是通过硬件模块TWU自动完成的，但是页表的维护需要软件来完成，且存放在主存中，因此页表查询是一个耗时的过程。当TLB未命中时，MMU才会通过TWU查询页表，从而得到翻译后的物理地址，这个虚拟地址及物理地址的映射也会存储在TLB中。

当TLB中缓存要访问的虚拟地址到物理地址的转换关系的时候，就可以直接找到的物理地址，通过该物理地址在L1 cache中查找数据。如果TLB中没有缓存要访问虚拟地址对应的物理地址，这时会通过页表遍历单元（TWU模块）遍历主存中的页表，查找相应的物理地址，找到后再通过这个物理地址访问L1 cache。

3）缓存（Cache）：主要作用是CPU与主存的缓冲层，那么Cache的速度应该接近于CPU，基本上是与CPU同频运作。一般缓存都集成在CPU芯片上，L1 cache分为L1D和L1I cache，L1D、L1I和L2 cache在同一个cpu上，L3 cache一般是多个cpu间共享。既然cache的访问速度这么快是不是越大越好，其实并不是，单拿成本和die的面积来说，cache就不能做的太大。（后续出专题）

4）主存：分别存储了各种数据，包括代码段、数据段、字符串、地址等。它的读写速度相对寄存器、cache慢了很多，但是单位成本却低了很多。通过系统中的存储金字塔设计，利用程序的时间及空间局部性原理，可以很好地利用主存的价格优势，弥补读写时间慢的问题。

5）总线（BUS）：主要作用是完成地址、数据的传输。它就像一条高速公路，快速完成各个单元间的数据交换，也是数据从内存流进和流出CPU的地方。CPU总线（前端总线）传输速率决定着CPU与内存之间传输数据的速度快慢。CPU总线速率越高，CPU从内存取指令和数据的等待时间越少，运行程序速度越快。总线又细分成数据总线、地址总线和控制总线。

CPU指令集架构（Instruction Set Architecture，简称ISA）是CPU和软件之间的桥梁。ISA包含指令集、特权级、寄存器、执行模式、安全扩展、性能加速扩展等方面。其中，指令集是ISA的重要组成部分，通常包含一系列不同功能的指令，用于数据搬移、计算、内存访问、过程调用等。CPU在运行操作系统或者应用程序的时候，实际上是在执行它被编译后所包含的指令。

CPU指令是CPU规定执行操作的类型和操作数的基本命令。指令是由一个字节或者多个字节组成（对于arm64，指令长度是4个字节），其中包括操作码字段、一个或多个有关操作数地址的字段以及一些表征机器状态的状态字以及特征码。有的指令中也直接包含操作数本身，且用二进制序列表示。

根据执行指令的特征，CPU分为精简指令集计算机（Reduced Instruction Set Conputer，简称RISC）和复杂指令集计算机（Complex Instruction Set Conputer，简称CISC）。

CPU工作运行原理：CPU从cache或主存中取出指令，然后放入指令寄存器，控制器对该指令进行译码。最终把指令分解成一系列的微操作，然后发出各种控制命令，执行微操作序列，从而完成一条指令的执行。

1）取指：取指令（Instruction Fetch，简称IF）阶段是将一条指令从cache或主存中获取指令到指令寄存器的过程。CPU中有一个程序计数器(Program Counter，简称PC)寄存器，其中保存着将要执行指令的地址。指令读取是通过将PC寄存器的值，输出给cache或者内存，然后由cache或内存返回该值对应地址中的指令。当一条指令被取出后，PC中的数值将根据指令字长度自动递增。

2）译码：取出指令后，CPU会立即进入指令译码（Instruction Decode，简称ID）阶段。在指令译码阶段，指令译码器按照预定的指令格式，对取回的指令进行拆分和解释，识别区分出不同的指令类别以及各种获取操作数的方法。指令有很多种，有进行各种运算的指令、控制下一条命令的指令、对内存进行读写的命令，还有对CPU进行控制的指令。

3）执行：在取指令和指令译码阶段之后，接着进入执行指令（Execute，简称EX）阶段。此阶段的任务是完成指令所规定的各种操作，实现具体指令的功能。为此，CPU的不同部分的组件被连接起来，以执行所需的操作。例如，执行一个加法运算，ALU将会连接到一组输入和一组输出。输入提供了要进行相加运算的数值，而输出求和后的结果。如果加法运算产生一个对该CPU处理而言过大的结果，在标志暂存器里，运算溢出(Arithmetic Overflow，简称AO)标志可能会被设置。

4）访存：根据指令需要，有可能要访问主存，读取操作数，这样就进入了访存取数的阶段。此阶段的任务是：根据指令中的地址码，经过MMU将虚拟地址转化成物理地址，根据物理地址得到操作数在cache或主存中的地址，并从cache或主存中读取该操作数用于运算。

5）写回：结果写回（Write Back，简称WB）阶段，一般把执行指令阶段的运行结果数据，写回到内部寄存器中，以便被后续的指令快速地存取。在有些情况下，结果数据也可被写入相对较慢、但较廉价且容量较大的主存。许多指令还会改变程序状态寄存器中标志位的状态，这些标志位标识着不同的操作结果，可被用来影响程序的动作。在指令执行完毕、结果数据写回之后，若无意外事件（如结果溢出等）发生，CPU就接着从程序计数器PC中取得下一条指令地址，开始新一轮的循环，下一个指令周期顺序取出下一条指令。

免责申明

本号聚焦相关芯片等技术分享，内容观点不代表本号立场，可追溯内容均注明来源。发布文章若存在版权等问题，请留言联系删除，谢谢。