进程和线程

Ralf_Jones 2005-12-23

展开全文

进程：多任务系统的产物

很久很久以前，是没有进程这个东西的。那时候的操作系统只能把要做的工作排好队，做完这件再做下一件，最多也就加个优先级，哪个关系好就先做哪一个。于是那些想一边听歌一边写程序的程序员们便不干了，开始修理那个操作系统，使之能同时运行多个程序。于是进程就出现了：它就是一个程序在数据集合上的一次执行。

因为突然变得僧多粥少了，所以每个进程只好做一些额外的事情：在别人使用之前把自己的东西收拾好，下次轮到自己时再摆出来。为了保存这些额外的东西，进程的结构也发生了相应的变化。一个进程被分成三大部分：代码段、数据段和PCB（进程控制块）。

在多出来的PCB中，我们保存了如下信息：

l 进程标识符（操作系统用于识别进程的唯一标识）

l 处理机状态（主要是通用寄存器，指令寄存器，PSW和用户栈指针）

l 进程调度信息（状态、优先级，被阻塞原因和其他一些乱七八糟的东西）

l 进程控制信息（同步信息、代码段和数据段的信息、资源清单和指向下一个PCB的指针）

操作系统正是通过PCB来管理这多个进程。在这样的系统里，进程既是操作系统独立调度和分派的基本单位，又是一个可拥有资源的独立单位。

线程：进程的再分身

好了，现在程序员可以一般听歌一边写程序了。可是不幸的或者说是幸运的，新的问题出现了。如果多个进程间使用很多相同数据的话，实在是太浪费了。我们当然不能允许这样的事情持续下去，所以线程出现了。同一个进程下可以拥有多个线程，它们共享这个进程的资源，它们之间的切换也不再需要PCB，而只需要极少一点资源就可以了。在这样的操作系统里，线程变成了系统调度和分派的基本单位。

简单的说进程和线程有如下不同：

l 进程可以拥有资源，线程共享进程拥有的资源

l 进程间的切换必须保存PCB，同个进程的多个线程间的切换不用那么麻烦

最后我们以一个实例来作为本文的结束：

当你在一台PC上打开两个QQ时，每一个QQ是一个进程；而当你在一个QQ上和多人聊天时，每一个聊天窗口就是一个线程。

为什么需要多进程/线程
副标题：
作者：佚名文章来源：本站原创点击数：更新时间：2005-3-3


还记得DOS时代有一个程序被大家奉为后台操作的经典，那就是Print.EXE（由M$提供），这个程序用于后台打印。可以从一定程度上实现了多任务，但是DOS并不是一个多任务的环境所以勉强实现多任务时限制太多。随后有了Windows 3.X，虽然OS有了多任务的支持但是严格的说来对多进程的支持并不够，这主要表现在进程间通信方面提供的支持非常少。一些传统的IPC方式都没有提供。后来在WinNT上完全实现了多进程/多线程支持，当然现在的Windows9X/2K都完全提供了这方面的支持。什么是进程（Process）：普通的解释就是，进程是程序的一次执行，而什么是线程（Thread），线程可以理解为进程中的执行的一段程序片段。在一个多任务环境中下面的概念可以帮助我们理解两者间的差别：进程间是独立的，这表现在内存空间，上下文环境；线程运行在进程空间内。一般来讲（不使用特殊技术）进程是无法突破进程边界存取其他进程内的存储空间；而线程由于处于进程空间内，所以同一进程所产生的线程共享同一内存空间。（图一）同一进程中的两段代码不能够同时执行，除非引入线程。线程是属于进程的，当进程退出时该进程所产生的线程都会被强制退出并清除。线程占用的资源要少于进程所占用的资源。进程和线程都可以有优先级。在线程系统中进程也是一个线程。可以将进程理解为一个程序的第一个线程。图一一个最简单的例子就是在屏幕上画多个跳动的小球，我们对每个球的绘制都可以采用一个线程来完成。但是象这样的线程间完全独立没有影响没有数据交换的情况是很少的。下面我们看一个例子，一个应用要完成两个任务：每次产生1000个随机数写入文件并从文件中读出数据并以该随机数为圆心画圆，对该操做进行100次，并使用100个不同的文件保存文件。传统做法如下： void do_this(void) { for(int i=0;i<100;i++) { /// step 1 generate 1000 randam number; write to file; /// step 2 read from file; draw circle; } } 如果引入多进程的概念，则实现方法可以改为： void do_this(void) { CreateProcess("do_rand.exe",...); CreateProcess("draw_circle.exe",...); } //do_rand.exe void do_rand(void) { for(int i=0;i<100;i++) { /// step 1 generate 1000 randam number; write to file; wait draw_circle finish last task tell draw_cricle data ready } } //draw_circle.exe void draw_circle(void) { for(int i=0;i<100;i++) { /// step 2 set flag of last task finish wait data ready read from file; draw circle; } } 在多进程中我们引入了更多的控制手段，首先do_rand在准备好数据后必须等待draw_circle处于空闲状态，这样做的原因是只有一个进程在进行画圆操作，所以必须保证当前提交的data ready请求能够被接收。在图二中我们可以看到用红框内的代码会在同时执行，由于使用了不同的文件所以不需要对文件的使用情况也进行判断。图二如果使用线程，我们可以进一步的改造程序，我们取消使用文件来保存数据，而是全局变量来保存数据： void do_this(void) { CreateThread("do_rand",...);//参数为线程入口而不是执行程序 CreateThread("draw_circle",...); } global int giRandNum[1000]; void do_rand(void) { for(int i=0;i<100;i++) { /// step 1 local int iRandNum[1000]; generate 1000 randam number; get access of giRandNum; memcpy(giRandNum,iRandNum,...); release access of giRandNum; wait draw_circle finish last task tell draw_cricle data ready } } void draw_circle(void) { for(int i=0;i<100;i++) { /// step 2 set flag of last task finish wait data ready local int iRandNum[1000]; get access of giRandNum; memcpy(iRandNum,giRandNum,...); release access of giRandNum; draw circle; } } 在这里我们使用全局变量来保存数据，而且程序使用的资源要小于前面使用进程的情况，而且效率是相同的。在这里我们由引入了对全局数据使用情况的判断，这是因为保证全局数据在被draw_circle读取的时候不会被do_rand修改。这就是一个数据同步的概念，实现数据同步的方法在4.4 进程/线程间同步会详细讲解。通过上面的例子可以看出使用多线程时可以提高效率又能够节省资源。最后一点线程在单CPU主机上与多进程相比是没有的效率上的提高，而在多CPU的主机上不同的线程代码可以分配到不同的主机上执行。但多进程/线程与单进程相比的在效率和速度上的优点很很明显的。随着多线进程/程序的采用同时也会产生很多其他的问题，比如数据如何交换（在上面的例子中我们使用文件来保存中间数据，当然还有很多的方法来在进程间交换数据），数据如何同步（保证某些数据在同时只被一段代码进行写操作），如何协调进程/线程间的操作（一个进程的继续执行是否要等待其他进程完成某些操作）。