别再让你的PyTorch模型输出NaN了！手把手教你用LogSumExp解决Softmax数值溢出

张

张建站

2026/4/22 14:14:23

10分钟阅读

别再让你的PyTorch模型输出NaN了手把手教你用LogSumExp解决Softmax数值溢出深夜调试模型时突然看到控制台跳出RuntimeWarning: invalid value encountered in true_divide紧接着损失函数曲线断崖式跌入NaN的深渊——这可能是每个深度学习开发者都经历过的噩梦时刻。当你的分类模型在某个batch突然崩溃90%的情况都是logits值过大导致exp计算溢出。本文将带你直击这个典型痛点从原理到实践彻底解决Softmax数值稳定性问题。1. 数值溢出的根源剖析在分类任务中Softmax函数负责将神经网络的原始输出logits转换为概率分布。其标准定义为def naive_softmax(x): exp_x torch.exp(x) return exp_x / exp_x.sum(dim-1, keepdimTrue)这个看似简单的计算过程却暗藏两个致命陷阱上溢(overflow)当logits中存在极大正值如超过709.78exp(x)会超出单精度浮点数表示范围直接返回inf下溢(underflow)当logits中存在极小的负值如小于-745.13exp(x)会四舍五入为0导致分母为0的除零错误实测案例当输入xtorch.tensor([1000., -10, 1])时naive_softmax会输出tensor([nan, 0., 0.])1.1 浮点数表示范围限制现代GPU常用的FP32浮点格式的表示范围类型最小正数最大数精度FP321.18e-383.40e387位有效数字FP165.96e-86.55e43位有效数字当使用混合精度训练时数值溢出风险会进一步加剧。这也是为什么在FP16模式下更容易出现NaN问题。2. LogSumExp的数学魔法LogSumExp(LSE)技巧的核心思想是通过数学变换保持数值稳定性def logsumexp(x): x_max x.max(dim-1, keepdimTrue).values return x_max (x - x_max).exp().sum(dim-1, keepdimTrue).log()2.1 数学推导关键步骤提取最大值作为偏移量b max(x)对每个元素减去偏移量x_i - b计算指数和的对数log(sum(exp(x_i - b)))最后加回偏移量b log(...)这样变换后最大的exp(x_i - b)值为1其余值都在(0,1]区间完美规避溢出风险。2.2 数值稳定版Softmax实现基于LSE可以推导出两种常用形式概率空间Softmaxdef stable_softmax(x): x x - x.max(dim-1, keepdimTrue).values exp_x torch.exp(x) return exp_x / exp_x.sum(dim-1, keepdimTrue)对数空间LogSoftmaxdef log_softmax(x): return x - logsumexp(x)3. PyTorch实战集成方案3.1 自定义损失函数当需要修改标准交叉熵损失时可以这样实现class StableCrossEntropyLoss(nn.Module): def forward(self, logits, labels): log_probs logits - logsumexp(logits) return -(labels * log_probs).sum(dim-1).mean()3.2 与PyTorch原生接口对比方法优点缺点nn.CrossEntropyLoss自动处理数值稳定性无法自定义logits变换自定义LSE版本完全控制计算过程需要额外实现梯度验证F.cross_entropy支持label_smoothing内部实现细节不透明性能测试在V100 GPU上自定义LSE实现比原生版本慢约5%但能100%避免NaN4. 高级应用与调试技巧4.1 混合精度训练适配当使用AMP自动混合精度时需要特别注意with torch.cuda.amp.autocast(): # 必须手动转换dtype logits logits.float() - logsumexp(logits.float()) loss custom_loss(logits, labels)4.2 数值稳定性检查清单遇到NaN问题时建议依次检查输入数据中是否存在异常值如inf/nan网络层输出是否出现数值爆炸损失函数实现是否正确处理logits学习率是否设置过高导致梯度爆炸混合精度训练是否配置合理4.3 极端案例处理对于特别极端的数值情况可以添加安全钳制def super_stable_softmax(x, clamp50): x x.clamp(-clamp, clamp) # 防止出现极端值 x x - x.max(dim-1, keepdimTrue).values # 剩余部分与常规实现相同在BERT-large这样的超大模型上最后一层logits值经常达到±100的范围此时clamp值建议设置为50-100之间。

如何通过正确的GCC工具链选择解决Betaflight固件编译问题

如何通过正确的GCC工具链选择解决Betaflight固件编译问题【免费下载链接】betaflight Open Source Flight Controller Firmware 项目地址: https://gitcode.com/gh_mirrors/be/betaflight 在嵌入式无人机飞控开发中，工具链版本选择直接决定了固件编译的成功…...

2026/4/22 14:14:23 阅读更多 →

独立站外链发在哪最稳妥？3类高权重资源站|附数据筛查表

五美金能在外包服务平台买到一万条独立站锚文本。一位做户外露营装备的外贸SOHO买了这个套餐。十四天过去，谷歌搜索控制台弹出纯人工惩罚警告。网站日均800个自然访客瞬间清零。修复错误花了他整整六个月时间。找专门的SEO外包清理垃圾代码花费2500美元。2024年3月的…...

2026/4/22 14:14:21 阅读更多 →

YOLOv13新手必看：镜像快速部署与简单预测，5分钟搞定目标检测

YOLOv13新手必看：镜像快速部署与简单预测，5分钟搞定目标检测 1. 引言：5分钟快速上手YOLOv13 目标检测是计算机视觉中最基础也最实用的技术之一，而YOLO系列模型以其出色的实时性能一直备受开发者青睐。最新发布的YOLOv13在保持实…...

2026/4/22 14:13:35 阅读更多 →

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构在开发中大型Unity项目时，UI系统的复杂度往往随着功能迭代呈指数级增长。当项目包含多个场景、数十个界面和数百个交互元素时，开发者常会遇到以下典型问题&#…...

2026/4/21 20:14:59 阅读更多 →

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

1. 整型常量后缀的底层原理第一次看到1ULL这种写法时，我盯着屏幕愣了三秒——数字后面加字母是什么黑魔法？直到在32位系统上调试一个计数器溢出bug后，才真正理解这些后缀的重要性。整型常量后缀实际上是告诉编译器："别用默认…...

2026/4/20 7:00:24 阅读更多 →

VisionMaster企业实操训练系列课程

VisionMaster企业实操训练系列课程主要出于，快速会设计视觉引导定位项目引导定位原理原理演示 1.单相机带角度定位引导 2.12点标定 3.单点抓取 4.上下相机对位引导 5.单相机带角度定位引导（相机在机械手上）...

2026/4/20 0:14:41 阅读更多 →

C#怎么限制Task最大并发数_C#如何自定义TaskScheduler【进阶】

SemaphoreSlim 是控制 Task 并发数最直接轻量的选择，通过异步闸门限制同时执行任务数，需配对 WaitAsync() 和 Release() 并在 finally 中确保释放；自定义 TaskScheduler 适用场景极窄，ParallelOptions.MaxDegreeOfParallelism 仅适…...

2026/4/20 6:29:58 阅读更多 →