一文详解Softmax与Sigmoid函数

张

张建站

2026/4/7 17:24:36

10分钟阅读

Softmax与Sigmoid函数详解引言在机器学习和深度学习中Softmax和Sigmoid是两个最常用的激活函数尤其常见于分类任务的输出层设计。尽管它们都能将实数映射到概率空间但其数学特性、应用场景和底层逻辑存在显著差异。本文将从数学推导、梯度行为、应用场景和代码实现四个维度对二者进行全面对比分析。一、Sigmoid函数1.1 数学定义Sigmoid函数定义为σ(z)11e−z \sigma(z) \frac{1}{1 e^{-z}}σ(z)1e−z1它将任意实数zzz映射到(0,1)(0,1)(0,1)区间输出可解释为概率值。1.2 导数特性Sigmoid的导数具有以下关键性质dσdzσ(z)(1−σ(z)) \frac{d\sigma}{dz} \sigma(z)(1 - \sigma(z))dzdσσ(z)(1−σ(z))导数在z0z0z0时达到最大值0.25随着∣z∣|z|∣z∣增大快速趋近于0导致梯度消失问题。1.3 应用场景二分类问题输出层单个节点表示正类概率门控机制如LSTM中的遗忘门、输入门概率校准将回归输出转化为概率二、Softmax函数2.1 数学定义对于KKK类分类问题Softmax函数定义为Softmax(zi)ezi∑j1Kezj(i1,...,K) \text{Softmax}(z_i) \frac{e^{z_i}}{\sum_{j1}^K e^{z_j}} \quad (i1,...,K)Softmax(zi)∑j1Kezjezi(i1,...,K)它确保所有输出值的和为1构成完整的概率分布。2.2 导数与雅可比矩阵Softmax的梯度计算涉及雅可比矩阵∂Si∂zj{Si(1−Sj)ij−SiSji≠j \frac{\partial S_i}{\partial z_j} \begin{cases} S_i(1 - S_j) i j \\ -S_i S_j i \neq j \end{cases}∂zj∂Si{Si(1−Sj)−SiSjijij该特性使得梯度计算与所有节点的输出相关。2.3 应用场景多分类任务输出层生成互斥类别概率注意力机制如Transformer中的注意力权重计算概率归一化多任务学习的输出标准化三、关键差异对比特性SigmoidSoftmax输出空间独立概率 (0,1)归一化概率分布 (∑1)互斥性支持多标签分类单标签分类梯度依赖仅与当前节点相关与所有节点相关计算复杂度O(1)O(K)典型应用二分类/多标签多分类四、数值稳定性实践4.1 Softmax的溢出问题原始实现可能因ezie^{z_i}ezi过大导致数值溢出。改进方案Softmax(zi)ezi−max(z)∑ezj−max(z) \text{Softmax}(z_i) \frac{e^{z_i - \text{max}(z)}}{\sum e^{z_j - \text{max}(z)}}Softmax(zi)∑ezj−max(z)ezi−max(z)4.2 Sigmoid的边界情况极端输入时可能出现梯度消失defsigmoid(z):returnnp.where(z0,1/(1np.exp(-z)),np.exp(z)/(1np.exp(z)))五、PyTorch实现对比5.1 Sigmoid层importtorch.nnasnn modelnn.Sequential(nn.Linear(128,1),nn.Sigmoid()# 二分类输出)loss_fnnn.BCELoss()5.2 Softmax层modelnn.Sequential(nn.Linear(128,10),nn.Softmax(dim1)# 10类分类)# PyTorch CrossEntropyLoss已包含Softmaxloss_fnnn.CrossEntropyLoss()六、常见问题解答Q1: 二分类能否用Softmax可以但等效于同时使用两个Sigmoid节点。此时Softmax输出[p,1−p][p, 1-p][p,1−p]与单Sigmoid输出ppp数学等价但计算效率更低。Q2: 多标签分类如何处理应使用多个Sigmoid节点每个类别独立判断而非Softmax。例如图像中同时包含猫和狗的场景。Q3: 为什么推荐CrossEntropyLoss而非手动实现框架级实现融合了LogSoftmax与NLL Loss兼具数值稳定性和计算效率。七、总结与选择建议明确问题类型单标签 → Sigmoid 多标签 → Softmax关注计算效率类别数超过1000时Softmax计算成本显著增加梯度动态Sigmoid需注意梯度消失适当使用Xavier初始化概率解释需要严格概率分布时优先Softmax总的来说Softmax 和 Sigmoid 函数都是神经网络中使用的激活函数。它们之间的主要区别在于 Softmax 函数适用于多类分类问题而 Sigmoid 函数更适合二分类问题。Softmax 函数用于预测模型中的多类目标变量当其输出值总和为 1 时可以将其解释为这些类的概率。它将输入压缩在 0 和 1 之间因此它的行为类似于范围从 0 到 1 而不是 -1 到 1 的广义逻辑激活函数因此它比 sigmoid 更适合多类分类sigmoid 每个输入向量只返回一个数字每个示例只提供一个类预测。另一方面Sigmoid 函数最适合二元分类问题因为它的输出范围从 0 到 1代表这两个结果0 或 1。这种类型的模型也称为逻辑回归可以通过使用权重 w 进行线性组合过程根据输入 x 值估计任意概率。这个概率将决定应该应用哪个类标签如果 p(x) 阈值则我们应用 A 类否则应用 B 类。当比较 softmax 或 sigmoid 函数带来的性能提升时并没有一个严格的结果而是取决于几个因素例如数据集的大小/复杂性/特征等。但是如果正确实施一般来说这两个模型应该提供相似的性能这也取决于计算成本等因素Softmax 在标准化之前可能由于值较高而存在一些数值稳定性问题。

书匠策AI：毕业论文写作的“未来科技伙伴”，开启智能创作新纪元！

在学术的浩瀚宇宙中，每一位即将毕业的学生都是勇敢的探索者，他们驾驶着知识的飞船，穿越数据的星河，寻找着那颗属于自己的学术之星——毕业论文。然而，面对繁杂的资料搜集、严谨的逻辑构建以及繁琐的格式调整&#xff0…...

2026/4/7 17:23:38 阅读更多 →

AI ABG制作与运营指南

使用ABG轻松玩转Instagram。我创建了一个AI生成的ABG，发布了一些Reels短视频，5天内就获得了1000粉丝。无需购买粉丝，也无需庞大的现有粉丝群。以下是详细步骤。 1、创建你的ABG 首先，你需要创建自己的ABG。这是你整个账号的门面…...

2026/4/7 17:22:07 阅读更多 →

7个实用技巧：用zoxide日志分析提升命令行导航效率

7个实用技巧：用zoxide日志分析提升命令行导航效率【免费下载链接】zoxide A smarter cd command. Supports all major shells. 项目地址: https://gitcode.com/GitHub_Trending/zo/zoxide zoxide是一款智能cd命令工具，支持所有主流shell&#xf…...

2026/4/7 17:17:44 阅读更多 →

基于MATLAB的轮轨接触几何计算GUI程序设计与实现

1-148 matlab的带有gui的轮轨接触几何计算程序基于matlab的带有gui的轮轨接触几何计算程序,根据不同的踏面和轨头，计算不同横移量下面的接触点位置。程序已调通，可直接运行有没有人蹲过现成的、换文件就能换轮轨、不用啃半天赫兹接触前的几何方程、结果还…...

2026/4/5 0:00:53 阅读更多 →

【CPP 深度学习】PyTorch On CPP 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch CPP LibTorch 硕士研一课程]

章节 1: PyTorch ON Cpp入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环境…...

2026/4/5 0:05:12 阅读更多 →

4DGL-uLCD-SE：轻量级嵌入式GUI驱动框架

1. 项目概述4DGL-uLCD-SE 是一个面向嵌入式系统设计的轻量级、可移植的图形用户界面（GUI）驱动框架，专为 4D Systems 公司推出的 uLCD 系列智能显示模块（如 uLCD-320GL, uLCD-70DT, uLCD-43PT 等）而构建。该库并非直接操…...

2026/4/5 0:34:09 阅读更多 →

电源逆变结构设计与选型指南

1. 电源逆变结构概述作为一名硬件工程师，我在过去十年里设计过各种电源转换电路。电源逆变结构是电力电子领域的核心内容，它决定了电能转换的效率、可靠性和成本。简单来说，电源逆变就是将直流电(DC)转换为交流电(AC)的过程，这在太…...

2026/4/5 0:34:18 阅读更多 →

更多精彩文章