多线程和多进程不可能是鸡肋！只因你还不会！最全的进阶资料！

ly88 2018-01-29

展开全文

不管你是大牛还是萌新，学好Python这些资料是必须用得到的！你不会这些比较基础的知识你拿什么东西来做项目呢？特别是c语言对底层知识掌握更加的严格！今天给大家打来比较基础的干货合集，衷心的希望能帮助到大家学好Python！

multiprocessing模块

由于GIL的存在，python中的多线程其实并不是真正的多线程，如果想要充分地使用多核CPU的资源，在python中大部分情况需要使用多进程。

multiprocessing包是Python中的多进程管理包。与threading.Thread类似，它可以利用multiprocessing.Process对象来创建一个进程。该进程可以运行在Python程序内部编写的函数。该Process对象与Thread对象的用法相同，也有start(), run(), join()的方法。

此外multiprocessing包中也有Lock/Event/Semaphore/Condition类 (这些对象可以像多线程那样，通过参数传递给各个进程)，用以同步进程，其用法与threading包中的同名类一致。所以，multiprocessing的很大一部份与threading使用同一套API，只不过换到了多进程的情境。

multiprocessing模块的功能众多：支持子进程、通信和共享数据、执行不同形式的同步，提供了Process、Queue、Pipe、Lock等组件，进程没有任何共享状态，进程修改的数据，改动仅限于该进程内。

Process类的介绍

Process(target = talk,args = (conn,addr))#由该类实例化得到的对象，表示一个子进程中的任务（尚未启动）

group参数未使用，值始终为None，

target表示调用对象，即子进程要执行的任务，

args表示调用对象的位置参数元组，args=(1,2,'egon',)，

kwargs表示调用对象的字典,kwargs={'name':'egon','age':18}，

name为子进程的名称。

方法：p.start()：启动进程，并调用该子进程中的p.run()

p.run():进程启动时运行的方法，正是它去调用target指定的函数，我们自定义类的类中一定要实现该方法

p.terminate():强制终止进程p，不会进行任何清理操作，如果p创建了子进程，该子进程就成了僵尸进程，使用该方法需要特别小心这种情况。如果p还保存了一个锁那么也将不会被释放，进而导致死锁

p.is_alive():如果p仍然运行，返回True

p.join([timeout]):主线程等待p终止（强调：是主线程处于等的状态，而p是处于运行的状态）。timeout是可选的超时时间，需要强调的是，p.join只能join住start开启的进程，而不能join住run开启的进程

属性：p.daemon：默认值为False，如果设为True，代表p为后台运行的守护进程，当p的父进程终止时，p也随之终止，并且设定为True后，p不能创建自己的新进程，必须在p.start()之前设置

p.name:进程的名称

p.pid：进程的pid，每个进程都会开启一个python解释器去完成，对应一个pid号。

p.exitcode:进程在运行时为None、如果为–N，表示被信号N结束。

p.authkey:进程的身份验证键,默认是由os.urandom()随机生成的32字符的字符串。这个键的用途是为涉及网络连接的底层进程间通信提供安全性，这类连接只有在具有相同的身份验证键时才能成功。

使用方式分为直接调用和继承类方式调用：

协程函数

协程拥有自己的寄存器上下文和栈。协程调度切换时，将寄存器上下文和栈保存到其他地方，在切回来的时候，恢复先前保存的寄存器上下文和栈。因此：

协程能保留上一次调用时的状态（即所有局部状态的一个特定组合），每次过程重入时，就相当于进入上一次调用的状态，换种说法：进入上一次离开时所处逻辑流的位置。

gevent模块实现协程

Python通过yield提供了对协程的基本支持，但是不完全。而第三方的gevent为Python提供了比较完善的协程支持。

gevent是第三方库，通过greenlet实现协程，其基本思想是：

当一个greenlet遇到IO操作时，比如访问网络，就自动切换到其他的greenlet，等到IO操作完成，再在适当的时候切换回来继续执行。由于IO操作非常耗时，经常使程序处于等待状态，有了gevent为我们自动切换协程，就保证总有greenlet在运行，而不是等待IO。

由于切换是在IO操作时自动完成，所以gevent需要修改Python自带的一些标准库，这一过程在启动时通过monkey patch完成：

实际代码里，我们不会用gevent.sleep()去切换协程，而是在执行到IO操作时，gevent自动切换，代码如下：

I/O模型

一共有五种类型的I/O模型：1.阻塞I/O：全程阻塞，2.非阻塞I/O：发送多次系统调用，3.IO多路复用（监听多个连接）4.异步IO5.驱动信号

对于一个network IO (这里我们以read举例)，它会涉及到两个系统对象，一个是调用这个IO的process (or thread)，另一个就是系统内核(kernel)。当一个read操作发生时，它会经历两个阶段：

等待数据准备 (Waiting for the data to be ready)
将数据从内核拷贝到进程中 (Copying the data from the kernel to the process)

1.阻塞I/O

在linux中，默认情况下所有的socket都是blocking，一个典型的读操作流程大概是这样：

这两个阶段都是阻塞的，在进行的时候不可以做其他的任务，所以是全程阻塞。

non-blocking IO（非阻塞IO）

copy data的时候是阻塞的，等待数据时在监听，数据不来就做其他的事，数据来了就复制数据。

优点：能够在等待任务完成的时间里干其他活了（包括提交其他任务，也就是 “后台” 可以有多个任务在同时执行）。

缺点：任务完成的响应延迟增大了，因为每过一段时间才去轮询一次read操作，而任务可能在两次轮询之间的任意时间完成。这会导致整体数据吞吐量的降低。并且数据也不是实时的，在数据没来时进行某个操作，操作期间数据来了，但是他不能立刻去copy data。

IO multiplexing（IO多路复用）

IO multiplexing就是select，epoll实现的。有些地方也称这种IO方式为event driven IO。select/epoll的好处就在于单个process就可以同时处理多个网络连接的IO。它的基本原理就是select/epoll这个function会不断的轮询所负责的所有socket，当某个socket有数据到达了，就通知用户进程。它的流程如图：

当用户进程调用了select，那么整个进程会被block，而同时，kernel会“监视”所有select负责的socket，当任何一个socket中的数据准备好了，select就会返回。这个时候用户进程再调用read操作，将数据从kernel拷贝到用户进程。

select仅仅使用I/O多路复用就完成了并发。一开始只监听sock，一有客户端来连接将conn加入监听，然后传数据过来就只监听conn传数据，简单来说select只监听有变化的套接字，没有变化的套接字传输还是按照之前学的套接字之间的数据传输。

结论: select的优势在于可以处理多个连接，不适用于单个连接。

Asynchronous I/O（异步IO）

全程无阻塞，异步就是用户进程发起read操作之后，立刻就可以开始去做其它的事。而另一方面，从kernel的角度，当它受到一个asynchronous read之后，首先它会立刻返回，所以不会对用户进程产生任何block。然后，kernel会等待数据准备完成，然后将数据拷贝到用户内存，当这一切都完成之后，kernel会给用户进程发送一个signal，告诉它read操作完成了。

到目前为止，已经将四个IO Model都介绍完了。现在回过头来回答最初的那几个问题：blocking和non-blocking的区别在哪，synchronous IO和asynchronous IO的区别在哪。

调用blocking IO会一直block住对应的进程直到操作完成，而non-blocking IO在kernel还准备数据的情况下会立刻返回。

各个IO Model的比较如图所示：

non-blocking IO中，虽然进程大部分时间都不会被block，但是它仍然要求进程去主动的check，并且当数据准备完成以后，也需要进程主动的再次调用recvfrom来将数据拷贝到用户内存。而asynchronous IO则完全不同。它就像是用户进程将整个IO操作交给了他人（kernel）完成，然后他人做完后发信号通知。在此期间，用户进程不需要去检查IO操作的状态，也不需要主动的去拷贝数据。

selectors模块（基于select机制实现的IO多路复用）

这个模块已经封装了select，poll，和epoll实现I/O多路复用。

windows下只有select，linux上还有poll和epoll。

select缺点每次调用都要将所有文件描述符copy到内核空间导致效率低，每次都要遍历所有的fd，是否有数据访问。最大连接数1024，poll只是没有连接数限制。

epoll：第一个函数创建epoll句柄，只有第一次要将所有文件描述符copy到内核空间，第二个函数回调函数，某一个函数某一个动作成功完成后会触发的函数，为所有fd绑定回调函数，一旦有数据访问触发此回调函数，回调函数将fd放到链表中。第三个函数判断链表是否为空。

q=Queue.Queue类即是一个队列的同步实现。队列长度可为无限或者有限。可通过Queue的构造函数的可选参数 maxsize来设定队列长度。如果maxsize小于1就表示队列长度无限。

q.put(10) 调用队列对象的put()方法在队尾插入一个项目。put()有两个参数，第一个item为必需的，为插入项目值；第二个block为可选参数，默认为 1。如果队列当前为空且block为1，put()方法就使调用线程暂停,直到空出一个数据单元。如果block为0， put方法将引发Full异常。

将一个值从队列中取出 q.get() 调用队列对象的get()方法从队头删除并返回一个项目。可选参数为block，默认为True。如果队列为空且 block为True，get()就使调用线程暂停，直至有项目可用。如果队列为空且block为False，队列将引发Empty异常。

join() 阻塞进程，直到所有任务完成，需要配合另一个方法task_done。

task_done() 表示某个任务完成。每一条get语句后需要一条task_done。

其他常用方法

此包中的常用方法(q = Queue.Queue()):
q.qsize() 返回队列的大小

q.empty() 如果队列为空，返回True,反之False

q.full() 如果队列满了，返回True,反之False

q.full 与 maxsize 大小对应

q.get([block[, timeout]]) 获取队列，timeout等待时间

q.get_nowait() 相当q.get(False)非阻塞
q.put(item) 写入队列，timeout等待时间

q.put_nowait(item) 相当

q.put(item, False)