C编程核心要点，你确信你会C语言？看完之后，男人沉默，女人流泪

启云_9137 2020-07-22

展开全文

引言

笔者有十余年的C++开发经验，相比而言，我的C经验只有一两年，C比较简单，简单到《The C Programming Language》（C程序设计语言）只有区区的200多页，相比上千页的C++大部头，不得不说真的很人性化了。

C是古典艺术，C精简的语法集和标准库，让我们可以把精力集中到设计等真正重要的事情上来，而不是迷失在语法的荒原，这对于初学者尤其重要。虽然C有抽象不足的缺陷，但我更喜欢它的精巧，只需要花少量的时间，弄明白每个知识点，看任何C源码就不会存在语法上的障碍，大家需要建立的共识足够少，少即是多，少好于多。

我教过6个人编程，教过文科生，教过小学生，教过女生，教过HTML，教过JAVA，也教过C++。最近，我在教我小孩编程，他只有十岁，很多人建议我选择Python，但我最终选择了C，因为C简单且强大，现在看来，C似乎是个不错的选择。

类型

C是强类型语言，有short、long、int、char、float、double等build-in数据类型，类型是贯穿c语言的核心概念。

不光变量有类型，函数也有类型，类型带来约束和安全。

struct、union、enum属于c的构造类型，用于自定义类型，扩充类型系统。

变量

变量用来保存数据，数据是操作的对象，变量的变字意味着它可以在运行时被修改。

变量由类型名+变量名决定，类型名决定是什么？变量名决定叫什么？

定义变量即为变量分配存储空间，可以在定义变量的同时做初始化，比如：

int i;

float f1 = 0.5, f2= 0.8;

void* p = NULL;

常量

const int i = 100;

const char* p = 'hello world';

运行中恒定、不可变，编译期便可确定。

数组

光有简单变量显然不够，我们需要数组，需要模拟现实中相同类型的多个元素，比如一个班级的同学列表，数组里的对象是紧密相邻的，通过数组名+位置索引便能访问每个元素。

二维、三维、高纬数组本质上还是线性的，二维数组通过模拟行列给人平面的感觉，但实际存储上还是连续内存的方式。

数组是静态的，在定义的时候，数组的长度就被确定，运行中无法伸缩，所以有时候我们不得不多分配一些空间。

数组元素不管用多用少，它都在哪里，有时候，我们会用一个int n去界定实际被使用的元素个数。

为了解决扩充性问题，引入了一个叫链表的数据结构，但它不属于C语言讨论的范畴。

函数

函数封装行为，是模块化的最小单元，函数使得逻辑复用变得可能。

C是过程式的，现实世界都可以被封装为一个个过程（函数），通过过程串联和编排模拟世界运行。

用C编程，行为和数据是分离的。调用函数的时候，调用者通过参数向函数传递信息，函数通过返回值向调用者反馈结果。

函数最好是无副作用的，函数内应该尽量避免修改全局变量或者静态局部变量，更好的方式是通过参数传递进来，这样的函数只是逻辑的盒子，它满足线程安全的要求，可以被多个执行流同时执行。

有了变量和函数，理论上就可以编写简单的程序了。

控制语句

顺序、分支、循环是3种基本语句：

分支：if 、else、else if、switch case、?:

循环：while、do while、for

break、continue、goto、default

结构体

build-in数据类型不足以描绘现实世界，或者用build-in类型描述不够直接，结构体用来模拟复合类型，它赋予了我们扩充类型系统的能力，我们把简单类型组合到一起构建更复杂的类型，而每个被组合的成分就叫成员变量。

结构体内的成分，对象通过点（.）运算符，指针通过箭头（->）访问成员。

指针

C的灵魂是指针，指针带来弹性，指针的本质是地址。

需要区分指针和指针指向的对象，多个指针变量可指向同一个对象，一个指针不能同时指向多个对象。

指针相关的基本操作包括：赋值（修改指针指向），解引用（访问指针指向的对象），取地址（&variable），指针支持加减运算。

因为指针变量要能覆盖整个内存空间，所以指针变量的长度等于字长，32位系统下32位4字节，64位系统下64位8字节。

指针的含义远比上述丰富，指针跟数组结合便有了指针数组（int* p[n]）和数组指针（int (*p)[n]），指针跟函数结合便有了函数指针（ret_type (*pf)(param list)），指针跟const结合便有了const char*/char* const/const char* const，还有指向指针的指针（int **p）。

既可以定义指向build-in数据类型的指针，也可以定义指向struct的指针，void*表示通用（万能）指针，它不能被解引用，也不能做指针算术运算。

数组和指针有密切的关系，数组名就是指向首元素的指针，所以接受int*参数的函数，我们可以传递int a[10]的数组名a进去。

实际上，函数参数无法真正传递数组，我们通常会传递数组首元素的指针+数组长度，代替传递真正的数组。

参数

注意区分形参和实参，函数调用时，形参会复制实参，这表示形参是实参的副本，我们无法通过修改形参达到修改实参的目的，我们只能通过传递指针，才能间接修改实参，返回值亦然。

函数指针与回调（callback）

c source code被编译链接后，函数被转换到可执行程序文件的text节，进程启动的时候，会把text节的内容装载到进程的代码段，代码段是c进程内存空间的一部分，所以任何c函数都会占用一块text内存空间，函数指针就是指向函数在代码段的第一行汇编指令，函数调用就会跳转到函数的第一个指令处执行。

函数指针经常被用来作为回调（callback），c语言也会用包含函数指针成员的结构体模拟OOP，本质上是把C++编译器做的事情，转给程序员来做（C++为包含虚函数的类构建虚函数表，为包含虚函数的类对象附加虚函数表的指针）。

字符串

char*是一类特殊的指针，它被称为c风格字符串，因为它总是以‘\0’作为结尾的标识，所以要标识一个字符串，有一个char*指针就够了，字符串的长度被0隐式指出，跟字符串相关的STD C API大多以str打头，比如strlen/strcpy/strcat/strcmp/strtok。

内存和内存管理

指针提供了c语言直接操作底层内存的能力，c程序区分栈内存和堆内存，堆和栈只是内存的不同区段，它并没有什么特别的。栈内存保存函数内的局部变量，它随程序执行而动态伸缩，所以不要返回临时变量的指针，栈内存容量有限（8/16M），所以我们要避免在函数内创建过大的局部变量，要警惕递归爆栈。

堆内存也叫动态内存，它由一个叫动态内存配置器的标准库组件管理，glibc的默认动态内存配置器叫ptmalloc，ptmalloc初始版本有性能问题，但后面用线程私有的动态内存配置上下文解决了竞争改善了性能。

动态内存配置器是介于kernel与应用层的一个中间层，从内核视角看ptmalloc是应用程序，从应用视角看ptmalloc又是系统库。不同于java，c需要显式释放内存，确保malloc跟free配对是程序员的职责，动态分配的内存丢失引用就会导致内存泄漏，指向已释放的内存块俗称野（悬垂）指针，free后应该对指针赋值NULL，避免对释放后的内存块的再次访问。

预处理

从c source file到可执行程序需要经过预处理->编译->汇编->链接多个阶段，预处理阶段做替换、消除和扩充，预处理语句以#打头。

宏定义，#define，宏定义可以用\做行连接，#用来产生字符串，##用来拼接，宏定义的时候要注意加()避免操作符优先级干扰，可以用do while(0)来把定义作为单独语句，#undef是define的反操作。

#if #ifdef #ifndef #else #elif #endif用来条件编译，为了避免头文件重复包含，经常用#ifndef #define #endif。

#include用来做头文件包含；#pragma用来做行为控制；#error用来在编译的时候输出错误信息。

__FILE__、__LINE__、_DATE_、_TIME_、_STDC_等标准预定义宏可以被用来做一些debug用途。

#typedef用来定义类型别名。比如typedef int money_t；money_t比int更有含义。

typedef也能用来为结构体取别名，有时候会这样写：

typedef struct

{

int a;

int b;

} xyz_t;

这样在定义结构体变量的时候就可以少敲几下键盘。

typedef也可以用来重定义函数指针类型，比如 typedef void (*PF) (int a, int b); PF是函数指针类型，而非函数指针变量。

枚举

枚举能增加代码可读性和可维护性，枚举本质上是int，只是为了更有含义，将有限取值的几个int值放在一组，比如定义性别：enum sex { male = 1, female };

可以在定义的时候赋值，比如male=1，后面的值依次递增1，如果不赋值则从0开始。

联合体（union）

结构体和联合体（共用体）的区别在于：结构体的各个成员会占用不同的内存，互相之间没有影响；而共用体的所有成员占用同一段内存，修改一个成员会影响其余所有成员。

union u_data

{

int n;

char ch;

double f;

};

其实本质上，联合体就是对一块内存的多种解释，大小按最大的来。

位域（bitfield）

struct SNField

{

unsigned char seq:7 ; // frame sequnce

unsigned char startbit:1 ; // indicate if it's starting frame 1 for yes.

};

节省空间，在面向底层的编码，或者编写处理网络等程序时候用的比较多，注意这个语法特征是跟机器架构相关的。

位操作

位与 &
位或 |
位取反 ~
位异或 ^
位移 << >>

static、extern、register、volatile、sizeof、inline

static修饰全局函数，表示模块内（编译单元）内可用，不需要导出全局符号。
static修饰局部变量，意味超越函数调用的生命周期，不存储在栈上，只会被初始化1次。
extern声明外部变量。
register，寄存器变量，建议编译器将变量放在寄存器里。
volatile，告诉编译器不要做优化，每次从内存读取，不做寄存器优化。
sizeof求大小，可以作用于变量，类型，表达式。
inline内联，就地展开，避免函数栈帧建立撤销和控制跳转的开销。

可变参数

void simple_printf(const char* fmt, ...)

va_list、va_start、va_arg、va_end

C的高级感

泛型：linux内核链表，通过offset和内嵌node，写出泛型链表，参考：https://www.cnblogs.com/wangzahngjun/p/5556448.html
OOP：通过定义带函数指针类型的成员变量的结构体，在运行中，为结构体对象挂载上函数指针，模拟运行时绑定，实现类似OOP多态的玄幻感觉。

GNU C扩展

GNU C扩展不是标准C，建议以符合标准C的方式编写C代码，但如果你阅读linux kernel code，你会发现有很多有趣看不懂的语法，它来自GNU C扩展，它确实也带来了一些便利性。

比如函数内alloc，可以动态分配内存，却不需要主动释放。

比如结构体成员可以不按定义顺序初始化：

struct test_t { int a; int b; };

struct test_t t1 = { .b = 1, .a = 2 };

比如可以通过指定索引初始化数组：

int a[5] = {[2] 5，[4] 9};

或 int a[5] = { [2] = 4, [4] = 9 };

相当于int a[5] = {0, 0, 4, 0, 9};

或者int a[100] = {[0 ... 9] = 1, [10 ... 98] = 2, 3};

比如0长度数组