CANN/GE KV缓存拷贝API
CopyKvCache【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge产品支持情况产品是否支持Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 推理系列产品√Atlas A2 训练系列产品x函数功能拷贝KV Cache。支持D2DD2H的拷贝。当期望PullKvCache和其他使用Cache的操作流水时可以额外申请一块中转Cache。当其他流程在使用Cache时可以先将下一次的Cache pull到中转Cache待其他流程使用完Cache后拷贝到指定的位置从而通过pipeline流水将PullKvCache的耗时隐藏减少总耗时。公共前缀场景在新请求推理前可以将公共前缀拷贝到新的内存中与当前请求的KV合并推理。函数原型Status CopyKvCache(const Cache src_cache, const Cache dst_cache, uint32_t src_batch_index 0U, uint32_t dst_batch_index 0U, uint64_t offset 0U, int64_t size -1)参数说明参数名称输入/输出取值说明src_cache输入源Cache。dst_cache输入目的Cache。src_batch_index输入源Cache的batch的下标。dst_batch_index输入目的Cache的batch的下标。offset输入拷贝偏移单位为byte。size输入设置为0的整数表示要拷贝的大小。或设置为-1表示完整拷贝。默认为-1。调用示例Status ret llm_datadist.CopyKvCache(src_cache, dst_cache, 0, 0)返回值LLM_SUCCESS成功LLM_PARAM_INVALID参数错误其他失败约束说明该接口调用之前需要先调用Initialize接口完成初始化。只支持Device-Device与Device-Host的拷贝。【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考