CANN/AMCT OFMR大模型量化

张

张建站

2026/5/14 1:10:36

10分钟阅读

AMCT大模型量化【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct1 量化前提1.1 安装依赖本sample依赖包可参考requirements.txt需要注意的是torch_npu包版本需要与Python、torch包版本相匹配需要安装CANN包1.2 模型和数据集准备本sample以Llama2-7bqwen2-7bqwen3-8b模型pileval数据wikitext2数据集为示例。模型请用户自行下载并传模型路径到脚本数据集为在线加载。1.3 简易量化配置本sample中使用的量化配置已经内置在工具中可以通过下述方式获取并使用from amct_pytorch import HIFP8_OFMR_CFG如果需要修改详细配置请参考资料构造需要的量化配置dict。ofmr算法支持仅权重量化和全量化支持的量化类型以及量化配置字段类型说明取值范围注意事项batch_numuint32量化使用的batch数量1/skip_layersstr跳过量化的层/跳过量化层支持模糊匹配当配置字符串为层名字串或与层名一致时跳过该层量化不生成量化配置。字符串必须包含数字或字母weights.typestr量化后权重类型float8_e4m3fn/hifloat8/weights.symmtricbool对称量化TRUE/weights.strategystr量化粒度tensor/channel/inputs.typestr量化后激活值类型float8_e4m3fn/hifloat8/inputs.symmtricbool对称量化TRUE/inputs.strategystr量化粒度tensor/algorithmdict量化使用的算法配置{ofmr}/2 量化示例2.1 使用接口方式调用step 1.请在当前目录执行如下命令运行示例程序用户需根据实际情况修改示例程序中的模型路径python3 src/run_llama2_samples.py --model_path/data/Llama2_7b_hf/python3 src/run_qwen_samples.py --model_path/data/Qwen2-7b/python3 src/run_qwen_samples.py --model_path/data/Qwen3-8B/若出现如下信息则说明量化成功Test time taken: 1.0 min 59.24865388870239 s Score: 5.477707其中Score为量化模型PPL具体数值参考下表模型校准集数据集量化前PPL量化后PPLLLAMA2-7Bpilevalwikitext25.4725.505QWEN2-7Bpilevalwikitext27.1377.196QWEN3-8Bpilevalwikitext29.7159.808推理成功后在当前目录会生成量化日志文件./amct_log/amct_pytorch.log【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/asc-devkit Arange API文档

Arange 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言，原生支持C和C标准规范，主要由类库和语言扩展层构成，提供多层级API，满足多维场景算子开发诉求。项目地址: https://gitcode.com/can…...

2026/5/12 21:50:05 阅读更多 →

BarTender模板设计+Java动态传参实战：教你制作可复用的智能标签打印模块

BarTender模板设计与Java动态传参实战：构建智能标签打印系统在工业自动化、物流管理和资产追踪等领域，标签打印系统往往是业务流转的关键环节。传统打印方案常面临一个核心矛盾：业务人员需要频繁调整标签格式和内容，而开发人员则…...

2026/5/13 18:14:00 阅读更多 →

JavaScript 浅拷贝：只复制“第一层”的艺术

📋 JavaScript 浅拷贝：只复制“第一层”的艺术 🤔 什么是浅拷贝？ 定义： 浅拷贝是指创建一个新对象，这个新对象拥有原对象属性值的精确拷贝。如果属性是基本类型（String, Number, Boolean…&…...

2026/5/13 16:55:01 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/12 23:12:06 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/13 15:11:14 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/12 17:56:15 阅读更多 →