CANN-昇腾NPU-持续预训练-怎么用领域数据继续训练

张

张建站

2026/5/23 22:44:49

10分钟阅读

基座模型用通用语料训练网页、书籍、代码但你的业务数据可能是医疗、法律、金融——领域词不在词表里模型答不准。持续预训练Continued Pre-Training用领域数据继续训练基座模型扩展词表和专业能力。持续预训练 vs 微调维度持续预训练微调SFT/LoRA数据量10M-1B tokens10K-1M tokens训练目标MLM/CLM无监督指令跟随有监督词表可扩展不扩展训练时间数天到数周数小时到数天效果领域知识内化指令跟随能力持续预训练是给模型补知识微调是教模型怎么用知识回答问题。数据准备领域数据需要跟预训练数据同分布纯文本无指令格式# 错误带指令格式这是 SFT 数据{instruction:解释心绞痛,input:,output:...}# 正确纯文本跟预训练一样{text:心绞痛是由于冠状动脉供血不足引起的胸痛...\n\n病理机制...}数据量建议领域最小数据量推荐数据量医疗100M tokens1B tokens法律50M tokens500M tokens金融50M tokens500M tokens代码100M tokens2B tokens训练配置fromtransformersimportTrainer,TrainingArguments training_argsTrainingArguments(per_device_train_batch_size4,gradient_accumulation_steps32,# 有效 batch 4×32 128max_seq_len4096,learning_rate1e-5,# 持续预训练用较小的 LRweight_decay0.01,num_train_epochs3,# 领域数据少的话 1-2 轮就够了save_steps1000,fp16False,bf16True,# 昇腾NPU 推荐 bf16deepspeedds_config_zero3.json,# ZeRO-3 节省显存...)trainerTrainer(modelmodel,argstraining_args,train_datasetdataset)trainer.train()学习率关键持续预训练的 LR 应该比预训练小 10-100×。预训练 LR 通常是 1e-4 到 3e-4持续预训练用 1e-5 到 3e-5。词表扩展领域专有词如医疗的阿司匹林肠溶片被拆成多个 subword模型难以理解。扩展词表fromsentencepieceimportSentencePieceTrainer# 1. 在领域数据上训练新词表SentencePieceTrainer.train(inputdomain_corpus.txt,model_prefixdomain_bpe,vocab_size5000,# 扩展 5000 个新词model_typebpe,)# 2. 扩展模型词表model.resize_token_embeddings(old_vocab_size5000,pad_to_multiple_of64,# 对齐到 64Cube 要求)扩展后的新词 embedding 用旧词 embedding 的平均值初始化然后在持续预训练中更新。防止灾难性遗忘持续预训练容易让模型忘记通用能力。解决方案方案 1混合通用数据# 90% 领域数据 10% 通用数据mixed_datasetconcatenate_datasets([domain_dataset.shuffle().select(range(int(0.9*len(domain_dataset)))),general_dataset.shuffle().select(range(int(0.1*len(domain_dataset))),])方案 2较小的学习率LR1e-5 比 LR1e-4 的遗忘少 30-50%。方案 3LoRA 持续预训练# 只用 LoRA 更新参数原模型冻结modelget_peft_model(model,lora_config)# 持续预训练时只更新 LoRA 参数原模型参数不变不会遗忘。昇腾NPU 上的加速持续预训练数据量大10M-1B tokens需要分布式训练# 8 卡 Atlas 800I A2training_argsTrainingArguments(...,deepspeedds_config_zero3.json,# ZeRO-3tf32True,# 昇腾NPU 支持 TF32等价 fp32 精度fp16 速度)ZeRO-3 把优化器状态、梯度、参数都分片到各卡8 卡Llama2-7B 无 ZeRO: 每卡显存 76GBOOM ZeRO-1: 每卡显存 42GB ZeRO-2: 每卡显存 28GB ZeRO-3: 每卡显存 18GB ← 8 卡都能跑效果评估持续预训练后在领域任务和通用任务上分别评估# 领域任务医疗问答domain_scoreevaluate(model,medical_qa_dataset)# 通用任务MMLUgeneral_scoreevaluate(model,mmlu_dataset)print(f领域得分:{domain_score:.1f}(原模型: 45.2))print(f通用得分:{general_score:.1f}(原模型: 78.5))好的持续预训练领域得分提升 10-30%通用得分下降 ❤️%。持续预训练是给基座模型补知识的重要手段。关键是数据质量跟预训练同分布、学习率小一点、防止遗忘混合通用数据。在昇腾NPU上用 ZeRO-3 做分布式训练8 卡能跑 7B 模型。仓库在这里https://atomgit.com/cann/torch_npu

UE5源码结构四层架构解析：Runtime、Editor、Engine与Game目录导航

1. 为什么看懂UE5源码结构比“会用蓝图”重要十倍刚进项目组那会儿，我带过一个很典型的新人：蓝图写得飞快，Niagara粒子调得炫酷，Sequencer时间线拉得行云流水——但一让他改个加载逻辑，就卡在FStreamableManager::Requ…...

2026/5/23 22:40:22 阅读更多 →

UE5 Layouts配置文件：UI跨端适配的隐形骨架

1. 为什么Layouts配置文件是UE5界面开发里最常被忽略的“隐形骨架”在UE5编辑器里拖拽控件、调整锚点、预览响应式效果——这些操作你可能每天都在做。但当你把一个精心设计的UMG界面从PC端移植到平板或电视大屏时，突然发现按钮错位、文本被裁切、整个布局像被揉皱的…...

2026/5/23 22:40:16 阅读更多 →

Qwen3-VL-8B多模态模型LoRA微调实战：单卡24G部署指南

1. 项目概述：为什么一个8B参数的多模态模型值得花时间微调？最近两周，我一直在折腾 Qwen3-VL-8B 这个模型——不是简单跑个 demo，而是从零开始做领域知识增强型微调。如果你也正卡在“模型能看图说话，但一问专业问题就胡…...

2026/5/23 22:38:15 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/22 17:23:01 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/21 21:54:05 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/22 17:49:20 阅读更多 →