模型微调(SFT)后的回归测试:如何确保新学知识不破坏老知识(灾难性遗忘)?
开篇:一场价值千万的“AI失忆症”正在悄悄发生想象这样一个场景:你的团队花了两周时间微调一个大模型,让它在法律合同审核任务上F1分数从0.62飙升至0.89。你兴冲冲把它部署到生产环境,结果用户反馈:原来回答得像模像样的“如何申请劳动仲裁”这类常识问题,现在给出了一堆法律条文还没说清楚结论。更致命的是,模型的代码生成能力也从“能跑”退化成了“能看懂但跑不通”。这不是段子,这是2025-2026年大量AI应用团队每天都在经历的“AI失忆症”——学术上称为灾难性遗忘(Catastrophic Forgetting)。据2026年3月发布的《Continual Learning in Large Language Models》综述,灾难性遗忘已成为大模型持续学习中最核心的瓶颈,静态预训练范式在动态知识环境中的局限性日益凸显。当你在一个任务上把模型“训得太好”,它就会把老知识当成“过时的缓存”无情覆盖。更诡异的是,根据2026年1月Imanov等人的机制分析研究,灾难性遗忘在Transformer结构中有三种主要驱动机制:注意力权重上的梯度冲突、中间层的表征漂移、以及损失景观平坦化——这三种机制往往同时发作,让模型在多个维度上“失忆”。本文要解决的核心命题是:在SFT(监督微调)之后,我们如何通过系统的回归测试框架,确保新学到的知识不会破坏模型原本的通用能力?一、灾难性遗忘:为什么模型越“聪明”越“健忘”?