告别内存拷贝：手把手带你理解DMA、链式DMA与RDMA的底层逻辑

张

张建站

2026/4/24 19:09:20

10分钟阅读

告别内存拷贝手把手带你理解DMA、链式DMA与RDMA的底层逻辑当服务器处理10GB/s的网络流量时CPU若亲自搬运每个数据包其计算资源将完全被内存拷贝消耗殆尽。这正是现代计算系统中DMA技术存在的根本价值——它如同一位不知疲倦的快递员在CPU只需下达指令后便能自主完成海量数据的搬运工作。本文将用三个递进的技术层次揭示从本地内存搬运到跨主机零拷贝的完整技术演进路线。1. DMA解放CPU的硬件快递员传统的内存拷贝需要CPU亲自参与每个字节的搬运这种模式在1980年代的IBM PC/AT时代就被证明存在严重效率瓶颈。现代DMA控制器本质上是一个专为数据搬运优化的协处理器其工作流程可分为三个关键阶段初始化阶段CPU配置源地址如0x8000、目标地址如0xC000和数据长度如4KB传输阶段DMA控制器接管总线控制权按字节/块执行搬运中断通知传输完成后通过中断通知CPU// 典型DMA控制器寄存器映射 struct dma_registers { uint32_t src_addr; // 源地址寄存器 uint32_t dst_addr; // 目标地址寄存器 uint32_t length; // 传输长度寄存器 uint32_t control; // 控制寄存器启动/停止 };在PCIe设备场景中DMA面临地址映射的挑战。如下图所示的内存访问路径CPU虚拟地址 - MMU - 物理地址 - IOMMU - PCIe设备地址当启用IOMMU时物理地址到PCIe地址的映射变得动态化。例如物理地址0x1000可能被映射到PCIe域的0x8000这种间接映射使得设备驱动程序必须通过dma_map_single()等API获取正确的DMA地址IOMMU页表需要维护一致的映射关系TLB缓存对DMA性能产生关键影响提示现代处理器使用ATSAddress Translation Services机制允许PCIe设备缓存地址转换结果减少IOMMU查询开销2. 链式DMA应对内存碎片的高手当系统无法提供连续物理内存时传统DMA将无法工作。链式DMA通过描述符链表Descriptor List解决了这一难题其核心思想是将离散的内存块组织为逻辑上连续的传输单元。Linux内核中的scatter-gather实现通过get_user_pages()获取用户空间内存的物理页帧构建scatterlist数组描述物理页信息调用dma_map_sg()建立IOMMU映射// scatterlist结构体示例 struct scatterlist { unsigned long page_link; // 页帧信息 unsigned int offset; // 页内偏移 unsigned int length; // 本段长度 dma_addr_t dma_address;// DMA映射地址 };链式DMA描述符的典型硬件实现包含以下字段字段名位宽描述SRC_ADDR64源地址指针DST_ADDR64目标地址指针LENGTH32传输长度NEXT_DESC64下一个描述符地址CONTROL8传输控制标志这种设计使得单个DMA传输可以处理多达256个离散内存块以Intel I/OAT引擎为例传输过程中硬件会自动遍历描述符链表无需CPU干预。3. RDMA跨越主机的零拷贝革命RDMA技术将DMA的理念扩展到网络领域实现了跨越主机内存的直接访问。其核心突破在于传输卸载将TCP/IP协议栈处理完全卸载到网卡硬件内存语义支持READ/WITE/ATOMIC等内存操作原语队列模型基于QPQueue Pair的工作队列机制RDMA通信建立流程注册内存区域Memory Registration生成lkey/rkey访问密钥建立虚拟地址到物理页的映射表创建QP队列对包括发送队列(SQ)和接收队列(RQ)设置最大传输单元(MTU)等参数连接建立CM建立交换QPN、GID等连接参数协商PSNPacket Sequence Number# RDMA性能测试工具示例 ib_write_bw -d mlx5_0 -p 18515 --size1M -n 100 # 输出结果示例 # 65536 bytes in 0.03 seconds 1789.12 MB/sec三种主流RDMA协议对比特性InfiniBandRoCEv2iWARP网络层IB原生UDP/IPTCP/IP路由支持不支持支持支持延迟1μs1-2μs5-10μs部署成本高中中兼容性专用设备以太网设备以太网设备4. 实战从理论到性能优化在实际系统调优中DMA技术的应用需要综合考虑硬件特性和软件配置。以下是几个关键优化点DMA引擎性能调优对齐要求确保缓冲区地址对齐到cache line通常64字节PCIe传输建议4KB对齐以获得最佳性能预取策略配置DMA引擎的预取深度如256B使用prefetchw指令准备接收缓冲区中断合并设置合理的watermark阈值采用MSI-X中断向量分散压力RDMA应用设计模式双缓冲机制交替使用两个缓冲区避免停顿零拷贝设计使应用缓冲区直接作为RDMA注册区域工作请求批处理单次门铃写入提交多个WQE# 使用Pyverbs库的RDMA写入示例 import pyverbs.providers.mlx5.mlx5dv as mlx5 ctx mlx5.Mlx5Context(dev_namemlx5_0) pd pyverbs.PD(ctx) mr pyverbs.MR(pd, buf_size1024, accesspyverbs.AccessFlags.LOCAL_WRITE) qp pyverbs.QP(pd, pyverbs.QPInitAttrEx()) qp.post_send( pyverbs.SendWR(opcodepyverbs.WR_OPCODE.RDMA_WRITE, sg[pyverbs.SGE(mr.buf, 1024)]) )在NVMe over Fabrics存储系统中RDMA可实现以下性能指标延迟从传统TCP的50μs降低到6μsCPU利用率从30%降低到3%吞吐量单端口达到100Gbps线速这些优化使得现代分布式系统能够实现微秒级延迟的跨节点内存访问为内存池化、分布式共享内存等新型架构奠定了基础。

DLSS Swapper：重新定义游戏性能优化的开源哲学

DLSS Swapper：重新定义游戏性能优化的开源哲学【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 当游戏性能优化不再是专业玩家的专利，当普通用户也能轻松掌控DLSS版本切换的奥秘，DLSS…...

2026/4/24 19:06:45 阅读更多 →

别慌！Spring Boot项目里遇到SQLRecoverableException，我这样一步步排查搞定

从零构建Spring Boot数据库连接异常防御体系：SQLRecoverableException深度解析与工程化解决方案当你在深夜收到生产环境告警，发现日志里频繁出现SQLRecoverableException时，那种头皮发麻的感觉每个Java开发者都懂。这不是一个简单的配置问题…...

2026/4/24 19:06:42 阅读更多 →

Visual Studio 2017/2019编译报错？手把手教你搞定‘v141构建工具找不到’这个烦人问题

Visual Studio编译报错终极指南：从"v141构建工具找不到"到高效开发环境搭建 1. 当红色错误弹窗成为开发者的日常噩梦 "Error MSB8020: The build tools for v141 (Platform Toolset v141) cannot be found." —— 这个看似简单的错误信息&…...

2026/4/24 19:05:23 阅读更多 →

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构在开发中大型Unity项目时，UI系统的复杂度往往随着功能迭代呈指数级增长。当项目包含多个场景、数十个界面和数百个交互元素时，开发者常会遇到以下典型问题&#…...

2026/4/21 20:14:59 阅读更多 →

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

1. 整型常量后缀的底层原理第一次看到1ULL这种写法时，我盯着屏幕愣了三秒——数字后面加字母是什么黑魔法？直到在32位系统上调试一个计数器溢出bug后，才真正理解这些后缀的重要性。整型常量后缀实际上是告诉编译器："别用默认…...

2026/4/20 7:00:24 阅读更多 →

VisionMaster企业实操训练系列课程

VisionMaster企业实操训练系列课程主要出于，快速会设计视觉引导定位项目引导定位原理原理演示 1.单相机带角度定位引导 2.12点标定 3.单点抓取 4.上下相机对位引导 5.单相机带角度定位引导（相机在机械手上）...

2026/4/20 0:14:41 阅读更多 →

C#怎么限制Task最大并发数_C#如何自定义TaskScheduler【进阶】

SemaphoreSlim 是控制 Task 并发数最直接轻量的选择，通过异步闸门限制同时执行任务数，需配对 WaitAsync() 和 Release() 并在 finally 中确保释放；自定义 TaskScheduler 适用场景极窄，ParallelOptions.MaxDegreeOfParallelism 仅适…...

2026/4/20 6:29:58 阅读更多 →