高性能IO背后原理-零拷贝(zero copy)技术概述

汉无为 2019-05-28

展开全文

预备知识

关于I/O内存映射。

设备通过控制总线，数据总线，状态总线与CPU相连。控制总数传送控制信号。在传统的操作中，都是通过读写设备寄存器的值来实现。但是这样耗费了CPU时钟。而且每取一次值都要读取设备寄存器，造成了效率的低下。在现代操作系统中。引用了I/O内存映射。即把寄存器的值映身到主存。对设备寄存器的操作，转换为对主存的操作，这样极大的提高了效率。

关于DMA

传统的处理方法为：当设备接收到数据，向CPU报告中断。CPU处理中断，CPU把数据从设备的寄存器数据读到内存。

在现代操作系统中引入的DMA设备，设备接收到数据时，把数据放至DMA内存，再向CPU产生中断。这样节省了大量的CPU时间

什么是零拷贝？

零拷贝描述的是CPU不执行拷贝数据从一个存储区域到另一个存储区域的任务，这通常用于通过网络传输一个文件时以减少CPU周期和内存带宽。

避免数据拷贝

避免操作系统内核缓冲区之间进行数据拷贝操作。
避免操作系统内核和用户应用程序地址空间这两者之间进行数据拷贝操作。
用户应用程序可以避开操作系统直接访问硬件存储。

零拷贝给我们带来的好处

减少甚至完全避免不必要的CPU拷贝，从而让CPU解脱出来去执行其他的任务
减少内存带宽的占用
通常零拷贝技术还能够减少用户空间和操作系统内核空间之间的上下文切换

零拷贝完全依赖于操作系统。操作系统支持

通过sendfile实现的零拷贝I/O

高性能IO背后原理-零拷贝(zero copy)技术概述

sendfile(socket, file, len);//file可以是文件句柄，也可以是socket句柄

把文件数据通过网络发送出去，减少了上下文的切换,内核的缓存数据到直接网卡数据也不用CPU去复制，由DMA完成

第1步发出sendfile系统调用，导致用户空间到内核空间的上下文切换(第一次上下文切换)。
第2步通过DMA将磁盘文件中的内容拷贝到内核空间缓冲区中(第一次拷贝: hard driver ——> kernel buffer)。
第3步数DMA发出中断，CPU处理中断，将数据从内核空间缓冲区拷贝到内核中与socket相关的缓冲区(第二次拷贝: kernel buffer ——> socket buffer)。
sendfile系统调用返回，导致内核空间到用户空间的上下文切换(第二次上下文切换)。
第4步通过DMA引擎将内核空间socket缓冲区中的数据传递到网卡(第三次拷贝: socket buffer ——> 网卡)。

通过sendfile实现的零拷贝I/O只使用了2次用户空间与内核空间的上下文切换，以及3次数据的拷贝。实现了把数据从文件发送到网卡。

传统的IO流程实现文件数据发送

高性能IO背后原理-零拷贝(zero copy)技术概述

read(file, tmp_buf, len);write(socket, tmp_buf, len);

第1步调用read(),上下文切换到内核，DMA把磁盘数据复制到内核的缓存空间
第2步read()返回，上下文切换到用户进程，CPU把数据复制到用户的缓存空间
第3步write() 上下文切换到内核，CPU把数据复制到内核socket缓存,write返回，上下文切换的进程

第4步DMP把socket缓存数据复制到网卡缓存上

经过4次上下文切换，4次数据拷贝，在数据量比较大时，性能比sendfile方式低下

通过mmap实现的零拷贝I/O

mmap(内存映射)是一个比sendfile昂贵但优于传统I/O的方法。

MappedByteBuffer

在调用FileChannel.map()时使用。与DirectByteBuffer类似，这也是JVM堆外部的情况。它基本上作为OS mmap()系统调用的包装函数，以便代码直接操作映射的物理内存数据。

HeapByteBuffer

在调用ByteBuffer.allocate()时使用。它被称为堆，因为它保存在JVM的堆空间中，因此你可以获得所有优势，如GC支持和缓存优化。但是，它不是页面对齐的，这意味着如果你需要通过JNI与本地代码交互时，比如写入网卡，写入磁盘，JVM将不得不复制到系统的页缓冲区空间。

DirectByteBuffer

在调用ByteBuffer.allocateDirect()时使用。 JVM在堆空间之外分配内存空间。因为它不是由JVM管理的，所以你的内存空间是页面对齐的，不受GC影响，这使得它成为处理本地代码的完美选择。然而，你要C程序员一样，自己管理这个内存，必须自己分配和释放内存来防止内存泄漏。

splice

在两个文件描述符之间传输数据，不用拷贝。但输入和输出文件描述符必须有一个是pipe。也就是说如果你需要从一个socket 传输数据到另外一个socket，是需要使用 pipe来做为中介的

splice (socket1_fd， pipe_fd） splice （pipl_fd, socket2_fd）

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：汉无为 > 《网络原文保留》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

汉无为

关注对话

TA的最新馆藏

[转] (20)[转载]缠论MACD学习体会
[转] [转载]MACD中枢体会
中国核心资产价值重估概念名单出炉！
资本资产定价模型（CAPM模型）
手机里常用的AI工具
万万没想到！中医‘望闻问切’竟能让你秒懂体质！手把手教你自查，建议收藏！

喜欢该文的人也喜欢更多

热门阅读换一换