CATLASS单核切K矩阵乘示例
SingleSplitK_Matmul Example Readme【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass功能说明算子功能优化的矩阵乘计算优化策略详见单核切K策略说明参数说明本样例直调参数包括m, n, k, deviceId与00_basic_matmul参数条件一致。 相应地算子原型有如下设计名称/Name类型/Class数据类型/Dtype维度/Dims格式/Format描述/DescriptionmatAinTensorfp16|bf16|fp32[m, k]ND|NZ左矩阵支持转置matBinTensorfp16|bf16|fp32[k, n]ND|NZ右矩阵支持转置matCoutTensorfp16|bf16|fp32[m, n]ND输出矩阵约束说明无代码组织本样例组织结构如下├── 34_single_splitk_matmul │ ├── CMakeLists.txt # CMake编译文件 │ ├── single_core_splitk.cpp # 主文件 │ └── README.md使用示例编译样例代码生成相应的算子可执行文件。# 编译指定用例 bash scripts/build.sh 34_single_core_splitk_matmul切换到可执行文件的编译目录output/bin下并执行算子样例程序。类似于基础样例00_basic_matmul测试数据根据命令行输入尺寸随机生成。cd output/bin # 可执行文件名 |矩阵m轴|n轴|k轴|Device ID # Device ID可选默认为0 ./34_single_core_splitk_matmul 256 512 1024 0• 256矩阵m轴• 512n轴• 1024k轴• 0Device ID可选默认为0执行结果如下说明精度比对成功。Compare success.【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考