DPU加速网络数据面：基于DOCA Flow的硬件卸载实践

张

张建站

2026/5/22 7:20:23

10分钟阅读

1. 项目概述为什么我们需要DPU加速的数据包转向在数据中心和云计算的战场上网络性能正成为新的瓶颈。当你的服务器网卡从10Gbps升级到25G、100G甚至向400G迈进时一个残酷的现实是处理这些海量数据包的CPU核心正变得越来越力不从心。想象一下一个满载着宝贵计算资源的CPU本应全力处理你的AI模型训练、数据库查询或视频转码却不得不耗费大量周期去检查每个数据包的IP地址、端口号决定它是该转发、丢弃还是进行加密。这就像让一位顶尖的脑外科医生去指挥停车场交通——不仅大材小用效率也极其低下。这就是DPUData Processing Unit数据处理单元登场的背景。它本质上是一块专为数据移动和处理而生的协处理器通常集成在智能网卡中。NVIDIA的BlueField系列DPU就是其中的佼佼者。但硬件有了如何高效地“指挥”它呢难道要每个开发者都去啃底层硬件手册编写复杂的驱动程序吗当然不。NVIDIA给出的答案是DOCAData Center Infrastructure-on-a-Chip Architecture框架而其中的DOCA Flow库正是我们实现“DPU加速数据包转向逻辑”的那把金钥匙。简单来说DOCA Flow允许你像搭积木一样在BlueField DPU的硬件流水线上用高级的C语言API定义数据包的命运。匹配源IP修改目的MAC进行IPsec加密还是镜像流量用于分析所有这些操作都可以被描述为一个“管道”Pipe多个管道链接成“转向树”Forwarding Tree从而构建出防火墙、负载均衡器、虚拟交换机等复杂的网络功能并且全部以线速在DPU硬件上执行对主机CPU零打扰。如果你是一名云基础设施工程师、网络研发或是任何需要处理高性能网络数据面的开发者理解并掌握DOCA Flow就意味着你能将昂贵的CPU核心从繁重的网络杂务中解放出来让它们专注于创造业务价值的应用计算同时获得前所未有的网络吞吐量和微秒级的超低延迟。接下来我们就深入拆解看看如何用DOCA Flow构建这套加速逻辑。2. 核心架构解析DOCA Flow的“管道”与“转向树”模型要驾驭DOCA Flow必须彻底理解其两个核心抽象管道Pipe和转向树Forwarding Tree。这构成了你设计任何数据包处理逻辑的思维框架。2.1 管道数据包处理的原子单元你可以把一个管道理解为一个微型的、自包含的数据包处理车间。每个车间门口都贴着一张“招聘启事”匹配标准只有符合条件的数据包才能进来。进来之后车间里有一条固定的“流水线”动作集合对数据包进行一系列加工最后决定把它送到下一个车间、发货出厂或者直接报废。管道的两大核心构件匹配Match定义什么样的数据包能进入这个管道。这是数据包分类的基石。DOCA Flow支持基于多层次的报头字段进行匹配包括L2层源/目的MAC地址、VLAN ID、以太网类型Ethertype。L3层源/目的IP地址IPv4/IPv6、IP协议号如TCP是6UDP是17。L4层源/目的端口号TCP/UDP。隧道封装VxLAN、NVGRE等Overlay网络的内层报文头。元数据数据包自带的标记如接收的物理端口号。匹配规则支持掩码mask和范围range让你能定义诸如“所有来自192.168.1.0/24网段的TCP流量”或“目的端口在8000-9000之间的UDP包”这样的灵活策略。动作Action定义对匹配的数据包做什么。这是实现网络功能的地方。动作分为几大类修改类修改数据包报头如修改源/目的MAC/IP、修改VLAN标签、进行NAT地址转换、压入/弹出隧道封装如VxLAN。转发类决定数据包的去向。这是最关键的动作之一它可以将数据包转发到另一个管道形成转向树。转发到DPU的Arm核心上进行更复杂的软件处理软件队列。转发到网卡的另一个硬件队列或端口发夹转发用于回环测试或特定处理。直接从一个物理端口发送出去。丢弃用于实现ACL拒绝规则。计数与监控类对经过该管道的数据包和字节进行计数用于流量统计和监控。还可以复制数据包到监控端口端口镜像用于安全分析或调试。一个简单的管道创建示例概念性代码// 创建一个基础管道匹配TCP目的端口80HTTP的流量并将其转发到特定队列 doca_flow_pipe_cfg pipe_cfg; doca_flow_match match; doca_flow_actions actions; doca_flow_monitor monitor; doca_flow_fwd fwd; // 1. 配置匹配规则TCP且目的端口为80 memset(match, 0, sizeof(match)); match.parser_meta.outer_l3_type DOCA_FLOW_L3_META_IPV4; match.parser_meta.outer_l4_type DOCA_FLOW_L4_META_TCP; match.tuple.dst_port 80; // 目的端口80 // 2. 配置动作这里我们只转发不修改报文 memset(actions, 0, sizeof(actions)); // actions 可以留空表示不对报文进行修改 // 3. 配置转发动作转发到队列0假设是软件处理队列 memset(fwd, 0, sizeof(fwd)); fwd.type DOCA_FLOW_FWD_RSS; // 使用RSS接收侧扩展队列 fwd.rss_queues queue_id; // 指向目标队列ID的指针 fwd.num_of_queues 1; // 4. 创建管道 doca_flow_pipe_create(http_traffic_pipe, pipe_cfg, match, actions, monitor, fwd, pipe_handle);注意以上为简化概念代码实际API调用需要初始化大量结构体并处理错误。DOCA Flow API设计严谨每个结构体字段都需要根据上下文正确填充否则创建会失败。2.2 转向树复杂逻辑的拼图单个管道的能力是有限的。真正的网络应用如状态防火墙需要多级处理。例如首先识别流量是否为已知连接连接跟踪如果是则快速转发如果不是则送到“新连接处理管道”进行策略检查检查通过后再创建一个新的连接跟踪条目。这就是转向树的用武之地。通过在一个管道的转发动作中指定目标为另一个管道你可以将多个管道链接起来形成一个有向无环图DAG。数据包像访客一样根据在每个管道“车间”的检查结果被引导至树的不同分支接受不同的处理。转向树的优势逻辑清晰将复杂的处理流程分解为多个简单的、可重用的管道便于开发和维护。资源优化不同的流量可以共享树中某些通用的管道如“解封装VxLAN管道”避免重复创建相同的匹配逻辑节省宝贵的硬件表项TCAM/SRAM资源。灵活扩展新的功能可以通过在树的适当位置插入新的管道来实现而无需重构整个处理逻辑。构建转向树的典型模式根管道Root Pipe通常是最先匹配的管道进行最粗粒度的分类比如基于入端口或外层VLAN。中间处理管道执行具体的网络功能如NAT、隧道封装、ACL检查。叶子管道执行最终动作如发送到指定端口、丢弃或提交到软件。关键心得设计转向树时应将匹配最精确、流量最大的规则放在树的前端。因为DPU的硬件流水线是按顺序匹配的前置的精确匹配能尽快处理掉大部分流量避免不必要的后续匹配开销这对性能至关重要。3. 实战从零构建一个DPU加速的简易虚拟交换机理论说得再多不如动手一试。让我们设想一个最经典的应用场景在BlueField DPU上实现一个简易的虚拟交换机vSwitch。它的功能是连接两个虚拟机VM1和VM2让它们能相互通信。我们将使用DOCA Flow来构建数据平面完全卸载到DPU硬件。3.1 环境准备与概念映射首先明确我们的物理和逻辑布局硬件一台搭载NVIDIA BlueField-2 DPU的服务器。逻辑DPU作为一个独立的“网络设备”它通过PCIe与主机相连。DPU上有多个物理网络端口例如PF0 PF1也有代表虚拟功能的虚拟端口VF 分配给虚拟机。DPU本身还有强大的Arm处理器核心可以运行控制平面软件。目标在DPU的硬件流水线上创建一个管道实现两个VF之间的二层交换。准备工作安装DOCA SDK从NVIDIA开发者网站获取并安装对应BlueField OS版本的DOCA SDK。这包含了所有库文件、头文件和开发工具。配置SR-IOV在主机BIOS/UEFI和操作系统中启用SR-IOV并为DPU的物理功能PF创建虚拟功能VF。例如为PF0创建VF0和VF1分别透传给VM1和VM2。理解端口标识在DOCA Flow中每个需要处理数据的实体物理端口、VF、软件队列都有一个唯一的doca_flow_port对象。我们的程序需要先初始化并获取这些端口对象的句柄。3.2 构建二层交换管道一个最简单的二层交换机只需要学习MAC地址并转发。我们用DOCA Flow来实现一个简化版静态MAC转发表。我们预先知道VM1的MAC是MAC_VM1挂在VF0上VM2的MAC是MAC_VM2挂在VF1上。步骤一创建“未知单播”处理管道这个管道用于处理目的MAC不在我们转发表中的数据包比如广播包ARP或初始的单播包。我们选择将其“泛洪”Flood即从除了入端口之外的所有其他端口发送出去。// 伪代码展示核心逻辑 doca_flow_pipe_cfg unknown_unicast_pipe_cfg; doca_flow_match match_any; // 匹配所有包 doca_flow_actions actions; doca_flow_fwd fwd; // 匹配规则可以设置为空或匹配任意表示所有包都进入此管道 memset(match_any, 0, sizeof(match_any)); // 转发动作泛洪。需要指定一个“泛洪组”其中包含VF0和VF1的端口句柄。 doca_flow_fwd_flood flood_fwd; flood_fwd.ports port_handles; // 指向端口句柄数组的指针 flood_fwd.num_of_ports 2; // VF0和VF1 fwd.type DOCA_FLOW_FWD_FLOOD; fwd.flood flood_fwd; // 创建管道 doca_flow_pipe_create(“flood_pipe”, pipe_cfg, match_any, NULL, NULL, fwd, flood_pipe_hdl);步骤二创建“MAC学习”管道静态表项实际上DOCA Flow的管道匹配是精确匹配不支持像传统交换机那样动态学习并更新表项。动态学习通常需要在DPU的Arm核心上运行控制平面软件如OVS的ovs-vswitchd由软件管理流表再通过DOCA Flow API下发精确的流规则到硬件。因此我们这里创建两个精确匹配的管道来实现静态转发管道A匹配目的MAC为MAC_VM2动作是转发到VF1的端口。管道B匹配目的MAC为MAC_VM1动作是转发到VF0的端口。// 创建转发到VM2的管道 doca_flow_match match_to_vm2; memset(match_to_vm2, 0, sizeof(match_to_vm2)); match_to_vm2.outer.eth.dst_mac MAC_VM2; // 目的MAC是VM2 doca_flow_fwd fwd_to_vm2; fwd_to_vm2.type DOCA_FLOW_FWD_PORT; fwd_to_vm2.port_id port_vf1; // 转发到VF1的端口句柄 doca_flow_pipe_create(“pipe_to_vm2”, pipe_cfg, match_to_vm2, NULL, NULL, fwd_to_vm2, pipe_to_vm2_hdl); // 同理创建转发到VM1的管道...步骤三设置管道优先级与默认规则硬件流水线按优先级顺序匹配管道。我们需要将精确匹配的管道pipe_to_vm1, pipe_to_vm2设置为高优先级将泛洪管道flood_pipe设置为最低优先级默认管道。在DOCA Flow中可以通过doca_flow_pipe_control_add函数来添加一个“控制管道”它作为入口根据优先级将数据包引导到不同的业务管道。或者更常见的做法是在创建管道时指定优先级属性并确保“匹配任意”的管道最后被查询。最终转发逻辑数据包从VF0进入。DPU硬件首先检查是否匹配pipe_to_vm1目的MAC是VM1不匹配。接着检查是否匹配pipe_to_vm2目的MAC是VM2如果匹配则转发到VF1。如果都不匹配则落入flood_pipe被泛洪到VF1对于从VF0进入的包泛洪到VF1。当VM2回复时其报文目的MAC是VM1则会匹配pipe_to_vm1从而完成双向通信。实操心得管道顺序至关重要。在真实的复杂应用中你需要精心规划管道的优先级顺序。通常的顺序是先匹配最精确、最特殊的规则如某个VIP的流量再匹配较通用的规则如某个子网的流量最后是默认规则。错误的顺序会导致流量匹配到错误的管道引发难以调试的网络问题。务必在设计阶段就绘制出清晰的转向树优先级图。3.3 进阶添加简单的ACL安全策略现在我们为这个简易交换机增加一点安全性禁止VM1访问VM2的TCP 22端口SSH。我们需要在转发管道之前插入一个丢弃管道。步骤创建ACL丢弃管道doca_flow_match match_deny; memset(match_deny, 0, sizeof(match_deny)); match_deny.outer.eth.src_mac MAC_VM1; // 源MAC是VM1 match_deny.outer.ip4.dst_ip IP_VM2; // 目的IP是VM2 (假设已知IP) match_deny.outer.l4_type DOCA_FLOW_L4_TYPE_TCP; match_deny.outer.tcp.l4_port.dst 22; // 目的端口22 doca_flow_fwd fwd_drop; fwd_drop.type DOCA_FLOW_FWD_DROP; // 丢弃动作 doca_flow_pipe_create(“acl_deny_ssh”, pipe_cfg, match_deny, NULL, NULL, fwd_drop, acl_pipe_hdl);关键点你必须将这个ACL管道的优先级设置得比pipe_to_vm2更高。这样当从VM1发往VM2端口22的TCP包到达时会先被高优先级的ACL管道匹配并丢弃根本不会走到转发管道。通过这个例子你可以看到通过组合不同的匹配条件和动作并以树形结构组织优先级就能用DOCA Flow构建出功能丰富、性能强悍的网络数据平面。4. 性能调优与深度实践指南将功能跑通只是第一步要让DOCA Flow在生产环境中发挥极致性能还需要深入理解其内部机制并掌握调优技巧。4.1 理解硬件卸载的层次与限制DOCA Flow的威力源于将“流表”规则卸载到DPU/智能网卡的专用硬件通常是TCAM和SRAM中执行。但这块硬件资源是有限的。表项规模BlueField DPU的流表容量是固定的。一个复杂的、包含大量五元组和掩码的规则可能比一个简单的二层规则消耗更多的硬件资源。在设计管道时要有“资源意识”。匹配性能硬件匹配是并行和线速的。但规则数量越多管理复杂度越高。尽量使用聚合规则如用CIDR网段代替大量单个IP以减少表项占用。动作复杂性某些复杂动作如大规模的NAT端口映射或深度报文修改可能需要多个硬件阶段或部分软件辅助其性能可能与简单的转发动作不同。需要查阅具体硬件的性能手册。性能调优检查清单规则精简定期审计和合并流表规则删除过期条目。优先级优化将匹配概率最高的规则放在最前面减少平均匹配次数。利用计数器为关键管道启用计数器doca_flow_monitor监控流量命中情况为优化提供数据支撑。批量操作当需要添加或删除大量规则时如流表刷新使用DOCA Flow提供的批量API如doca_flow_pipe_entries_add这比单条操作效率高得多。4.2 与控制平面的交互模式在实际系统中DOCA Flow负责的是数据平面Data Plane—— 快路径。还需要一个运行在DPU Arm核心或主机CPU上的控制平面Control Plane—— 慢路径/管理路径。典型的交互模式初始化阶段控制平面程序启动调用doca_flow_init初始化DOCA Flow库创建好基础的、静态的管道结构如我们上面创建的交换机和ACL管道。运行时动态更新当需要动态添加规则时如学习到新的MAC地址、新建一条VPN隧道控制平面通过DOCA Flow API向对应的管道中添加具体的“表项”Entry。// 假设我们已经有一个匹配目的IP的管道 pipe_l3 doca_flow_match match_entry; doca_flow_actions action_entry; doca_flow_fwd fwd_entry; // ... 填充具体的匹配值和动作值例如dst_ip10.0.0.1, fwd_portPORT_X doca_flow_pipe_entry_add(pipe_l3_hdl, match_entry, action_entry, fwd_entry, NULL, entry_handle);事件处理某些动作如将数据包转发到软件队列会导致数据包被DPU的Arm核心接收。控制平面需要从这些队列中轮询或中断接收数据包进行复杂处理如路由协议计算、连接状态跟踪然后根据处理结果再通过API动态增删改数据平面的流表项。重要经验控制平面与数据平面的解耦是设计关键。数据平面的规则应尽可能保持稳定变化频繁的细粒度流表如每一条TCP连接才适合动态增删。避免因为控制平面的频繁更新导致数据平面规则剧烈波动影响性能。4.3 常见问题与故障排查实录在实际部署中你肯定会遇到各种问题。以下是一些典型场景及排查思路问题一管道创建失败返回DOCA_FLOW_ERROR_NO_RESOURCES。原因最可能的原因是硬件资源如TCAM已耗尽。排查使用doca_flow_port_pipes_dump等调试函数导出当前所有管道和表项信息查看资源占用情况。检查是否有管道或表项泄漏。确保在程序退出或规则过期时正确调用doca_flow_pipe_destroy或doca_flow_pipe_entry_delete进行销毁。优化管道设计尝试合并规则减少掩码的使用范围。问题二流量没有按预期转发或丢弃。原因匹配规则不正确或管道优先级错误。排查抓包验证在物理端口或虚拟端口上抓包确认数据包是否真的到达DPU以及其报文头是否符合预期。规则检查仔细核对doca_flow_match结构体中填充的每一个字段。特别注意网络字节序大端序和主机字节序小端序的转换问题。DOCA Flow通常期望的是网络字节序。优先级验证回顾所有相关管道的创建顺序和优先级属性。确保你期望先匹配的规则确实拥有更高的优先级。使用调试工具NVIDIA提供了一些DOCA Flow的调试工具和示例可以打印出流表信息辅助诊断。问题三性能达不到预期吞吐量低或延迟高。原因过多流量回退到软件处理路径转发到Arm核心。管道设计存在性能瓶颈如存在大量“匹配任意”的低优先级管道导致所有包都要经过冗长的匹配链。硬件队列配置不合理产生拥塞。排查监控计数器检查各管道的计数器确认有多少比例的数据包被硬件快速处理多少被送到了软件队列。软件路径的性能远低于硬件路径。简化管道对转发路径进行性能剖析尝试将多个连续动作合并到更少的管道中减少管道跳转次数。检查硬件配置确保DPU的物理端口速率、MTU、RSS接收侧扩展队列数量等配置符合高性能转发的要求。问题四程序运行一段时间后崩溃或规则失效。原因内存管理问题或生命周期管理不当。排查确保初始化与销毁配对每个doca_flow_port_start必须有对应的doca_flow_port_stop每个doca_flow_init必须有对应的doca_flow_destroy。检查句柄管理妥善保存doca_flow_pipe,doca_flow_port等对象的句柄并在不再需要时释放相关资源。注意线程安全DOCA Flow的API并非都是线程安全的。在多线程控制平面中需要对API调用进行适当的同步如加锁。掌握这些排查技巧能让你在遇到问题时快速定位而不是盲目尝试。DOCA Flow的调试有一定门槛但一旦熟悉其运作模式就能极大地提升开发效率。5. 超越基础探索DOCA Flow的高级应用场景当你掌握了基础管道和转向树的构建后DOCA Flow还能帮你实现更强大的网络功能直接对标高价的专业网络设备。5.1 构建有状态防火墙连接跟踪传统ACL是无状态的只检查单个数据包。而有状态防火墙如iptables的state模块能理解“连接”的概念允许已建立连接的回包通过。用DOCA Flow实现连接跟踪需要结合数据平面和控制平面数据平面硬件加速快速路径管道匹配“已建立”连接的流量例如匹配一个由五元组连接状态标识的硬件流表项直接允许转发。慢速路径管道匹配到“新连接”的第一个包如SYN包动作设置为“转发到软件队列”。控制平面Arm核心软件从软件队列中收到“新连接”包。进行安全策略检查如检查ACL。如果允许则在硬件中创建两条新的流表项一条用于正向流Client-Server状态为ESTABLISHED另一条用于反向流Server-Client状态同样为ESTABLISHED。这样该连接后续的所有包都将由硬件快速处理。同时软件可以维护一个连接超时定时器超时后删除硬件的流表项。这样既保证了首包策略检查的灵活性又实现了后续数据包的硬件线速转发。5.2 实现负载均衡器L4/L7利用DOCA Flow的匹配和修改动作可以实现高性能负载均衡。L4负载均衡创建一个管道匹配VIP虚拟IP和端口。动作是修改目的IP和目的端口为后端真实服务器RS的地址和端口DNAT并转发。同时还需要一个处理回包的管道进行反向的SNAT修改。一致性哈希为了保持会话粘连可以在动作中使用“哈希”操作根据数据包的五元组计算一个哈希值根据这个值选择后端服务器。DOCA Flow提供了强大的元数据操作能力可以支持此类复杂逻辑。5.3 与OVS/DPDK的集成你不是在孤军奋战。DOCA Flow可以与现有的生态无缝集成。与OVS集成Open vSwitch (OVS) 可以通过其“硬件卸载”接口如netdev-offload-doca将流表规则下发到DOCA Flow。这样你可以继续使用熟悉的OVS控制平面如OpenFlow协议而数据平面则获得DPU的硬件加速。这几乎是获得高性能虚拟网络最简单的方式。与DPDK应用协同如果你的自定义数据面应用基于DPDK你可以让DPDK应用运行在DPU的Arm核心上。DOCA Flow管道可以将特定流量转发到DPDK应用的软件队列由DPDK进行复杂处理处理完后DPDK可以再调用DOCA Flow API将结果包注入硬件流水线发送出去。这种混合模式兼顾了灵活性与性能。从我个人的项目经验来看DOCA Flow最大的价值在于它提供了一条从“通用软件实现”到“专用硬件加速”的平滑演进路径。你不需要一开始就重写整个系统可以从对性能最敏感的模块开始逐步将其卸载到DPU从而以最小的改动代价获得数量级的性能提升。尤其是在云原生和微服务架构下将网络、存储、安全功能从CPU卸载到DPU已经是构建高效、安全、多租户基础设施的必然趋势。而DOCA Flow正是打开这扇大门的钥匙。

昇腾CANN ops-fft：在 NPU 上做离散傅里叶变换

信号处理、频谱分析、图像滤波——大量科学计算和工程应用都绕不开 FFT。ops-fft 把离散傅里叶变换（DFT）的计算搬到昇腾 NPU 上，用 Vector 单元的并行能力甩开 CPU 几个量级。但 FFT 在 NPU 上的坑不比数学算子少。基数选择不当、维度顺序混…...

2026/5/22 7:18:44 阅读更多 →

京东自动抢购工具：5分钟快速上手指南，轻松抢购心仪商品

京东自动抢购工具：5分钟快速上手指南，轻松抢购心仪商品【免费下载链接】autobuy-jd 使用python语言的京东平台抢购脚本项目地址: https://gitcode.com/gh_mirrors/au/autobuy-jd 还在为心仪商品秒杀时手速不够快而烦恼吗？Autobuy-JD…...

2026/5/22 7:16:07 阅读更多 →

AI MV 工具评测指南 2026：多模态音视频自动生成系统

AI MV 工具评测指南 2026：多模态音视频自动生成系统适用读者：需要批量生产音乐可视化内容的自媒体创作者、社交媒体运营者、短视频内容创作者一、技术定义与核心功能 AI MV 工具是实现音频到视频自动转化的多模态生成系统。其工作原理是：输入…...

2026/5/22 7:00:01 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/21 12:13:15 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/21 21:54:05 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/21 5:13:18 阅读更多 →