CANN/asc-devkit AllGather API文档

张

张建站

2026/5/10 3:19:03

10分钟阅读

AllGather【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√功能说明集合通信算子AllGather的任务下发接口返回该任务的标识handleId给用户。AllGather的功能为将通信域内所有节点的输入按照rank id重新排序然后拼接起来再将结果发送到所有节点的输出。函数原型template bool commit false __aicore__ inline HcclHandle AllGather(GM_ADDR sendBuf, GM_ADDR recvBuf, uint64_t sendCount, HcclDataType dataType, uint64_t strideCount, uint8_t repeat 1)参数说明表 1模板参数说明参数名输入/输出描述commit输入bool类型。参数取值如下true在调用Prepare接口时Commit同步通知服务端可以执行该通信任务。false在调用Prepare接口时不通知服务端执行该通信任务。表 2接口参数说明参数名输入/输出描述sendBuf输入源数据buffer地址。recvBuf输出目的数据buffer地址集合通信结果输出到此buffer中。sendCount输入参与AllGather操作的sendBuf的数据个数recvBuf的数据个数等于sendCount * rank size即sendCount * 卡数。dataType输入AllGather操作的数据类型目前支持HcclDataType包含的全部数据类型HcclDataType详细可参考表1。strideCount输入strideCount0表示多张卡的数据拼接到一张卡的recvBuf时相邻数据块保持地址连续。卡rank[i]的数据块将被放在recvBuf中且偏移数据量为i*sendCount。非多轮切分场景下推荐用户设置该参数为0。strideCount0表示多张卡的数据拼接到一张卡的recvBuf时相邻数据块在recvBuf中起始地址的偏移数据量为strideCount。卡rank[i]的数据块将被放在recvBuf中且偏移数据量为i*strideCount。注意上述的偏移数据量为数据个数单位为sizeof(dataType)。repeat输入一次下发的AllGather通信任务个数。repeat取值≥1默认值为1。当repeat1时每个AllGather任务的sendBuf和recvBuf地址由服务端自动算出计算公式如下sendBuf[i] sendBuf sendCount* sizeof(datatype) * i, i∈[0, repeat)recvBuf[i] recvBuf sendCount* sizeof(datatype) * i, i∈[0, repeat)注意当设置repeat1时须与strideCount参数配合使用规划通信数据地址。图 1AllGather通信示例![](https://gitcode.com/cann/asc-devkit/blob/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/AllGather通信示例.png AllGather通信示例?utm_sourcegitcode_repo_files)返回值说明返回该任务的标识handleIdhandleId大于等于0。调用失败时返回 -1。约束说明调用本接口前确保已调用过InitV2和SetCcTilingV2接口。若HCCL对象的config模板参数未指定下发通信任务的核该接口只能在AIC核或者AIV核两者之一上调用。若HCCL对象的config模板参数中指定了下发通信任务的核则该接口可以在AIC核和AIV核上同时调用接口内部会根据指定的核的类型只在AIC核、AIV核二者之一下发该通信任务。对于Atlas A2 训练系列产品/Atlas A2 推理系列产品一个通信域内所有Prepare接口的总调用次数不能超过63。对于Atlas A3 训练系列产品/Atlas A3 推理系列产品一个通信域内所有Prepare接口和InterHcclGroupSync接口的总调用次数不能超过63。对于Ascend 950PR/Ascend 950DT一个通信域内所有Prepare接口的总调用次数不能超过63。对于Ascend 950PR/Ascend 950DT通信服务端为CCU时单次最大通信数据量不能超过256M。调用示例非多轮切分场景如下图所示4张卡上均有sendCount300个float16数据每张卡从xGM内存中获取到本卡数据gather处理各卡的数据后将结果输出到各卡的yGM。图 2非多轮切分场景下4卡AllGather通信![](https://raw.gitcode.com/cann/asc-devkit/raw/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/非多轮切分场景下4卡AllGather通信.png 非多轮切分场景下4卡AllGather通信?utm_sourcegitcode_repo_files)extern C __global__ __aicore__ void all_gather_custom(GM_ADDR xGM, GM_ADDR yGM, GM_ADDR workspaceGM, GM_ADDR tilingGM) { auto sendBuf xGM; // xGM为AllGather的输入GM地址 auto recvBuf yGM; // yGM为AllGather的输出GM地址 uint64_t sendCount 300; // 每张卡均有300个float16的数据 uint64_t strideCount 0; // 非切分场景strideCount可设置为0 REGISTER_TILING_DEFAULT(AllGatherCustomTilingData); //AllGatherCustomTilingData为对应算子头文件定义的结构体 GET_TILING_DATA_WITH_STRUCT(AllGatherCustomTilingData, tilingData, tilingGM); Hccl hccl; GM_ADDR contextGM AscendC::GetHcclContext0(); // AscendC自定义算子kernel中通过此方式获取HCCL context if (AscendC::g_coreType AIV) { // 指定AIV核通信 hccl.InitV2(contextGM, tilingData); auto ret hccl.SetCcTilingV2(offsetof(AllGatherCustomTilingData, allGatherCcTiling)); if (ret ! HCCL_SUCCESS) { return; } HcclHandle handleId1 hccl.AllGathertrue(sendBuf, recvBuf, sendCount, HcclDataType::HCCL_DATA_TYPE_FP16, strideCount); hccl.Wait(handleId1); AscendC::SyncAlltrue(); // 全AIV核同步防止0核执行过快提前调用hccl.Finalize()接口导致其他核Wait卡死 hccl.Finalize(); } }多轮切分场景使能多轮切分等效处理上述非多轮切分示例的通信。如下图所示每张卡的300个float16数据被切分为2个首块数据1个尾块数据。每个首块的数据量tileLen为128个float16数据尾块的数据量tailLen为44个float16数据。在算子内部实现时需要对切分后的数据分3轮进行AllGather通信任务将等效上述非多轮切分的通信结果。图 3各卡数据切分示意图![](https://raw.gitcode.com/cann/asc-devkit/raw/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/各卡数据切分示意图-51.png 各卡数据切分示意图-51?utm_sourcegitcode_repo_files)具体实现为第1轮通信每个rank上0-0\1-0\2-0\3-0数据块进行AllGather处理。第2轮通信每个rank上0-1\1-1\2-1\3-1数据块进行AllGather处理。第3轮通信每个rank上0-2\1-2\2-2\3-2数据块进行AllGather处理。每一轮通信结果中各卡上相邻数据块的起始地址间隔的数据个数为strideCount以第一轮通信结果为例rank0的0-0数据块和1-0数据块起始地址间隔的数据量strideCount 2*tileLen1*tailLen300。图 4第一轮4卡AllGather示意图![](https://raw.gitcode.com/cann/asc-devkit/raw/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/第一轮4卡AllGather示意图.png 第一轮4卡AllGather示意图?utm_sourcegitcode_repo_files)extern C __global__ __aicore__ void all_gather_custom(GM_ADDR xGM, GM_ADDR yGM, GM_ADDR workspaceGM, GM_ADDR tilingGM) { constexpr uint32_t tileNum 2U; // 首块数量 constexpr uint64_t tileLen 128U; // 首块数据个数 constexpr uint32_t tailNum 1U; // 尾块数量 constexpr uint64_t tailLen 44U; // 尾块数据个数 auto sendBuf xGM; // xGM为AllGather的输入GM地址 auto recvBuf yGM; // yGM为AllGather的输出GM地址 REGISTER_TILING_DEFAULT(AllGatherCustomTilingData); //AllGatherCustomTilingData为对应算子头文件定义的结构体 GET_TILING_DATA_WITH_STRUCT(AllGatherCustomTilingData, tilingData, tilingGM); Hccl hccl; GM_ADDR contextGM AscendC::GetHcclContext0(); // AscendC自定义算子kernel中通过此方式获取HCCL context if (AscendC::g_coreType AIV) { // 指定AIV核通信 hccl.InitV2(contextGM, tilingData); auto ret hccl.SetCcTilingV2(offsetof(AllGatherCustomTilingData, allGatherCcTiling)); if (ret ! HCCL_SUCCESS) { return; } uint64_t strideCount tileLen * tileNum tailLen * tailNum; // 2个首块处理 constexpr uint32_t tileRepeat tileNum; // 除了sendBuf和recvBuf入参不同处理2个首块的其余参数相同。故使用repeat2第2个首块AllGather任务的sendBuf、recvBuf将由API内部自行更新 HcclHandle handleId1 hccl.AllGathertrue(sendBuf, recvBuf, tileLen, HcclDataType::HCCL_DATA_TYPE_FP16, strideCount, tileRepeat); // 1个尾块处理 constexpr uint32_t kSizeOfFloat16 2U; sendBuf tileLen * tileNum * kSizeOfFloat16; recvBuf tileLen * tileNum * kSizeOfFloat16; constexpr uint32_t tailRepeat tailNum; HcclHandle handleId2 hccl.AllGathertrue(sendBuf, recvBuf, tailLen, HcclDataType::HCCL_DATA_TYPE_FP16, strideCount, tailRepeat); for (uint8_t i0; itileRepeat; i) { hccl.Wait(handleId1); } hccl.Wait(handleId2); AscendC::SyncAlltrue(); // 全AIV核同步防止0核执行过快提前调用hccl.Finalize()接口导致其他核Wait卡死 hccl.Finalize(); } }【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Nomadik处理器架构：ARM与智能加速器的协同设计解析

1. Nomadik处理器架构解析：ARM与智能加速器的协同设计2004年，STMicroelectronics推出的Nomadik系列应用处理器，在当时移动多媒体处理领域堪称一次架构创新。这款面向智能手机、PDA等便携设备的芯片，其核心设计理念在今天看来依然具…...

2026/5/10 3:18:57 阅读更多 →

LangChain与LangGraph实战：从零构建具备反思能力的AI智能体

1. 从零到一：构建你的第一个LangChain智能体如果你对AI应用开发感兴趣，最近肯定没少听到“智能体”这个词。它不再是科幻电影里的概念，而是我们能用代码实实在在构建出来的东西。我花了几个月时间，跟着Eden Marco的LangChain课程&…...

2026/5/10 3:17:38 阅读更多 →

K8s-MCP-Server：用AI自然语言交互Kubernetes集群的运维新范式

1. 项目概述：一个为Kubernetes而生的MCP服务器如果你和我一样，每天都在和Kubernetes集群打交道，那你肯定经历过这样的场景：为了查一个Pod的日志，得先kubectl get pods，找到名字，再kubectl logs&…...

2026/5/10 3:11:05 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/10 0:01:34 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/10 0:10:18 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/10 0:14:33 阅读更多 →