1. 项目背景与核心问题数学推理能力一直是衡量大语言模型LLM智能水平的重要标尺。在2023年之前大多数开源模型在GSM8K等数学基准测试上的表现往往徘徊在30-50%的正确率与人类中学生水平存在明显差距。PRISM研究正是针对这一痛点展开它系统性地探索了中训练Mid-training这一特殊训练策略对提升LLM数学能力的实际效果。所谓中训练是指在模型预训练Pre-training和指令微调Instruction Tuning之间插入的一个专门训练阶段。与完全从零开始的预训练不同中训练是在已有预训练模型的基础上使用特定领域数据此处为数学相关文本进行中等规模的继续训练。这种方法既避免了从头训练的巨大成本又能针对性地强化模型在目标领域的能力表现。2. 技术方案设计思路2.1 数据构建策略研究团队构建了一个包含300万条数学相关文本的专用数据集MathCorpus其内容分布如下表所示数据类型占比示例处理方式教科书解题步骤35%证明勾股定理首先构造正方形...保留完整推导链条学术论文数学章节25%根据Lemma 3.1可得...提取数学密集段落编程解题代码20%python def solve_quadratic(a,b,c):代码与注释配对数学竞赛题解15%IMO 2020 Problem 2解法...保留多种解法数学百科条目5%黎曼猜想表述为...结构化整理特别值得注意的是所有数据都经过严格的格式统一和符号标准化处理。例如将所有数学公式转换为LaTeX格式确保模型学习到统一的数学表达规范。2.2 模型架构调整在基础模型选择上研究采用了开源的LLaMA-7B作为基座模型并进行了以下关键调整注意力机制优化在Transformer层中引入滑动窗口注意力Sliding Window Attention特别加强数值相邻token之间的注意力权重。实测显示这使模型对长数学推导链条的理解能力提升约17%。数值编码改进将原始tokenizer中的数字处理方式从纯字符级改为混合编码0-999的整数保留为独立token大数/小数拆分为科学计数法形式如3.14→3.14→[3, ., 1, 4]数学常数π、e等作为特殊token损失函数调整在标准交叉熵损失基础上增加以下两项公式一致性损失检测生成内容中的数学公式自洽性推导步骤奖励对符合数学推导逻辑的连续token给予额外奖励3. 训练流程关键技术3.1 三阶段训练策略研究采用渐进式的训练方案具体流程如下预热阶段1,000步学习率5e-6仅训练嵌入层和最后5个Transformer层目标让模型初步适应数学文本分布主体训练阶段50,000步学习率1e-5余弦衰减全参数训练每5,000步进行一次课程学习调整逐步增加题目难度逐步减少解题步骤提示精调阶段10,000步学习率5e-6重点训练注意力相关参数引入对抗训练样本故意包含错误步骤的题目关键技巧在主体训练阶段采用梯度累积batch_size32累积4次在8张A100上训练耗时约72小时。实际资源消耗比完整预训练减少约85%。3.2 关键超参数配置下表列出了区别于常规训练的关键参数设置参数常规值PRISM设定理论依据序列长度20481024数学推导通常需要更精炼的上下文Dropout率0.10.05数学关系需要更确定的参数传递梯度裁剪1.00.5防止数值敏感参数剧烈波动热身步数2000500数学模式相对基础语言模式更易学习权重衰减0.010.005保留更多预训练获得的一般知识4. 效果验证与案例分析4.1 基准测试表现在GSM8K小学数学题、MATH高中数学竞赛题和MMLU-STEM大学STEM学科题三个测试集上的表现对比如下模型 \ 测试集GSM8KMATHMMLA-STEMLLaMA-7B原始41.2%6.7%32.1%标准微调53.8%12.4%38.5%PRISM中训练68.3%24.7%49.2%人类大学生~80%~60%~75%特别值得注意的是模型在需要多步推理的题目上进步最明显。例如在GSM8K中小明买苹果这类典型应用题上的正确率从45%提升至72%。4.2 典型解题过程解析以下展示模型处理鸡兔同笼问题的完整推理链条问题笼中有鸡和兔共15只脚共40只问鸡兔各多少模型输出1. 设鸡有x只兔有y只 2. 根据题意得方程组 - x y 15 总数量 - 2x 4y 40 总腿数 3. 将第一式解为x15-y 4. 代入第二式2(15-y)4y40 5. 展开30-2y4y40 → 302y40 6. 解得2y10 → y5 7. 代回x15-510 8. 最终答案鸡10只兔5只错误案例分析 当故意将题目改为无解情况如总腿数设为奇数早期版本会强行给出错误解而改进后的模型能识别检测到矛盾每只动物至少2条腿15只至少30条腿... 总腿数40-3010需由兔子的额外腿贡献... 但10无法被2整除每兔多2腿题目条件可能有误5. 实践经验与改进方向5.1 关键成功因素数据质量重于数量经过严格验证的100万条高质量数学题解比300万条含噪声数据训练效果更好符号一致性处理确保训练数据中所有数学符号如变量x、运算符∈等的编码方式完全统一渐进式难度设计从一步计算题逐步过渡到多步证明题避免模型过早遇到挫折样本5.2 典型问题与解决方案问题1模型有时会跳步现象在代数运算中突然省略关键步骤解决在损失函数中增加相邻token差异惩罚项问题2单位处理混乱现象将5米和5千克直接相加改进在数据标注时显式标记物理量纲问题3数值稳定性不足现象大数运算时出现1e-5级别的浮动误差方案在推理时对数值结果进行范围校验5.3 未来优化方向混合精度训练改进当前fp16训练可能导致某些小数精度丢失测试bf16格式解题过程可解释性探索生成中间验证节点类似人类的验算步骤跨语言迁移验证中文数学术语与英文符号系统的对应关系在实际部署中发现将模型与符号计算库如SymPy结合使用效果更佳——让LLM负责问题理解和步骤规划具体计算交给专业数学引擎。这种混合架构在工程数学问题上准确率可再提升15-20%。