CANN学习中心AReaL昇腾实践
AReaL 昇腾实践手册【免费下载链接】cann-learning-hubCANN 学习中心仓支持在线互动运行、边学边练提供教程、示例与优化方案一站式助力昇腾开发者快速上手。项目地址: https://gitcode.com/cann/cann-learning-hub本实践将呈现如何使用AReaL框架在昇腾设备进行强化学习训练.1. 环境准备|依赖 |版本要求 ||--|--| | 硬件 | A2、A3系列硬件(双卡或以上) | |镜像| areal_npu 0.5.0|2. 拉取官方 NPU 镜像docker pull swr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v0.5.0-a3Atlas A2 设备请替换为对应的a2镜像标签。3. 启动容器下面的命令负责挂载 Ascend 设备、驱动和工作目录。执行前请把路径改成自己的真实路径并按机器实际卡数调整--device。WORK_DIR/path/to/your/workspace CONTAINER_WORK_DIR/workspace CONTAINER_NAMEareal_npu IMAGEswr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v0.5.0-a3 docker run -itd --cap-addSYS_PTRACE --nethost \ --device/dev/davinci0 \ --device/dev/davinci1 \ --device/dev/davinci2 \ --device/dev/davinci3 \ --device/dev/davinci4 \ --device/dev/davinci5 \ --device/dev/davinci6 \ --device/dev/davinci7 \ --device/dev/davinci8 \ --device/dev/davinci9 \ --device/dev/davinci10 \ --device/dev/davinci11 \ --device/dev/davinci12 \ --device/dev/davinci13 \ --device/dev/davinci14 \ --device/dev/davinci15 \ --device/dev/davinci_manager \ --device/dev/devmm_svm \ --device/dev/hisi_hdc \ --shm-size1200g \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /var/log/npu/:/usr/slog \ -v ${WORK_DIR}:${CONTAINER_WORK_DIR} \ --privilegedtrue \ --name ${CONTAINER_NAME} \ ${IMAGE} \ /bin/bash4. 安装 AReaL 昇腾分支这一步在容器内拉取 AReaL 仓库并安装ascend分支作用是拿到已经适配昇腾平台的版本。docker exec -it areal_npu /bin/bash git clone https://github.com/inclusionAI/AReaL cd AReaL git checkout ascend pip install -e .5. 检查并调整示例配置训练脚本examples/math/gsm8k_rl.py配置文件examples/math/gsm8k_grpo_npu.yaml修改配置文件gsm8k_grpo_npu.yaml将模型配置为Qwen3-0.6B模型修改配置文件gsm8k_grpo_npu.yaml调整训推的卡资源分配以及并行方式默认为4卡推理4卡训练都使用DP并行下面给出调整为单卡推理单卡训练的配置调整方式6. 启动 RL 训练训练过程会访问huggingface下载模型和数据集,若因网络原因无法访问huggingface导致模型或数据集下载失败可第七节视频处理.python -m areal.launcher.local examples/math/gsm8k_rl.py --config examples/math/gsm8k_grpo_npu.yaml当图中信息循环显示时RL训练便在正常运行了训练完成显示如下训练结束后新的模型文件默认在/tmp/areal/experiments/下可通过gsm8k_grpo_npu.yaml配置文件fileroot参数调整文件路径:7.参考视频https://www.bilibili.com/video/BV1thc6z7E4U/?spm_id_from333.337.search-card.all.click【免费下载链接】cann-learning-hubCANN 学习中心仓支持在线互动运行、边学边练提供教程、示例与优化方案一站式助力昇腾开发者快速上手。项目地址: https://gitcode.com/cann/cann-learning-hub创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考