别再死记硬背反向传播公式了！用Python手搓一个MLP，从异或门开始理解神经网络

张

张建站

2026/4/18 23:56:08

10分钟阅读

别再死记硬背反向传播公式了！用Python手搓一个MLP，从异或门开始理解神经网络

从异或门到神经网络用Python实现MLP的逆向思维教学在咖啡厅里我经常看到对着神经网络公式皱眉的初学者。他们面前摊开的教材上密密麻麻的偏导数符号像一道无法逾越的墙。这让我想起自己初学时的困惑——直到有一天我决定扔掉公式手册用代码重新理解这一切。本文将带你用Python构建一个解决异或问题的多层感知机在这个过程中反向传播不再是抽象的数学而是调试器中可见的数据流动。1. 为什么从异或门开始异或门XOR是理解神经网络价值的完美起点。这个简单的逻辑运算有一个特性它无法用单层感知机实现。当我们用代码实现这个不可能的任务时神经网络的核心价值就会变得直观。线性不可分性异或门的输入输出在二维平面上无法用一条直线正确划分生物学启示人脑通过多层神经元处理复杂信息异或问题需要类似的层级结构教学价值实现异或网络只需2-3个神经元是理解更复杂网络的理想垫脚石# 异或门的真值表 xor_truth_table [ [0, 0, 0], [0, 1, 1], [1, 0, 1], [1, 1, 0] ]2. 构建神经网络的基础组件在开始反向传播之前我们需要搭建神经网络的基本结构。这个过程就像组装乐高积木——每个组件都有明确的功能接口。2.1 神经元网络的原子单位神经元是神经网络的基本计算单元它的核心是一个加权求和函数加上非线性激活。我们用Python类来封装这个行为import numpy as np class Neuron: def __init__(self, input_size): self.weights np.random.randn(input_size) * 0.1 self.bias np.random.randn() * 0.1 self.last_activation None self.last_input None def sigmoid(self, x): return 1 / (1 np.exp(-x)) def forward(self, inputs): self.last_input inputs z np.dot(inputs, self.weights) self.bias self.last_activation self.sigmoid(z) return self.last_activation注意我们使用sigmoid作为激活函数因为它平滑可导的特性非常适合初学者理解反向传播。在实际项目中可能会使用ReLU等更现代的激活函数。2.2 网络层的实现单个神经元能力有限将它们组织成层才能解决复杂问题。一个网络层管理着多个神经元的前向计算class Layer: def __init__(self, input_size, neuron_count): self.neurons [Neuron(input_size) for _ in range(neuron_count)] def forward(self, inputs): return np.array([neuron.forward(inputs) for neuron in self.neurons])3. 组装MLP并前向传播现在我们可以组装一个完整的多层感知机(MLP)来解决异或问题。根据理论我们需要至少一个隐藏层才能解决这个非线性问题。3.1 网络架构设计对于异或问题2-2-1的网络结构就足够了输入层2个节点对应两个输入隐藏层2个神经元形成两个决策边界输出层1个神经元输出最终结果class MLP: def __init__(self): self.hidden_layer Layer(2, 2) # 输入2维2个神经元 self.output_layer Layer(2, 1) # 隐藏层输出2维1个输出 def forward(self, inputs): hidden_output self.hidden_layer.forward(inputs) return self.output_layer.forward(hidden_output)3.2 测试前向传播让我们看看未经训练的网络的初始表现mlp MLP() for x1, x2, y in xor_truth_table: prediction mlp.forward(np.array([x1, x2])) print(f输入: [{x1}, {x2}], 预测输出: {prediction[0]:.4f}, 期望输出: {y})此时的输出几乎随机这正是我们需要训练网络的原因。4. 反向传播的代码实现反向传播的核心思想是通过链式法则将误差从输出层反向传播到各层调整权重以减少误差。让我们分解这个过程的代码实现。4.1 损失函数与梯度计算我们使用均方误差(MSE)作为损失函数并计算其对各个参数的梯度def mse_loss(y_true, y_pred): return 0.5 * (y_true - y_pred) ** 2 def sigmoid_derivative(x): return x * (1 - x)4.2 反向传播步骤反向传播分为三个阶段前向计算、误差反向传播、参数更新。以下是完整的训练循环def train(mlp, data, epochs10000, lr0.1): for epoch in range(epochs): total_loss 0 for x1, x2, y_true in data: # 前向传播 inputs np.array([x1, x2]) hidden_output mlp.hidden_layer.forward(inputs) y_pred mlp.output_layer.forward(hidden_output)[0] # 计算误差 loss mse_loss(y_true, y_pred) total_loss loss # 输出层梯度 output_error y_pred - y_true output_delta output_error * sigmoid_derivative(y_pred) # 隐藏层梯度 hidden_error np.dot(mlp.output_layer.neurons[0].weights, output_delta) hidden_deltas hidden_error * sigmoid_derivative(hidden_output) # 更新输出层权重 for i, neuron in enumerate(mlp.output_layer.neurons): neuron.weights - lr * output_delta * hidden_output neuron.bias - lr * output_delta # 更新隐藏层权重 for i, neuron in enumerate(mlp.hidden_layer.neurons): neuron.weights - lr * hidden_deltas[i] * inputs neuron.bias - lr * hidden_deltas[i] if epoch % 1000 0: print(fEpoch {epoch}, Loss: {total_loss/len(data):.4f})5. 训练过程可视化与调试理解神经网络的关键是观察训练过程中各参数的变化。我们可以添加可视化功能来帮助理解。5.1 损失曲线跟踪在训练函数中添加损失记录绘制学习曲线import matplotlib.pyplot as plt def train_with_visualization(mlp, data, epochs10000, lr0.1): losses [] for epoch in range(epochs): # ... (之前的训练代码) losses.append(total_loss/len(data)) plt.plot(losses) plt.xlabel(Epoch) plt.ylabel(Loss) plt.title(Training Loss Curve) plt.show()5.2 决策边界可视化训练完成后我们可以绘制网络的决策边界def plot_decision_boundary(mlp): x_min, x_max -0.5, 1.5 y_min, y_max -0.5, 1.5 h 0.01 xx, yy np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) Z np.array([mlp.forward(np.array([x, y]))[0] for x, y in zip(xx.ravel(), yy.ravel())]) Z Z.reshape(xx.shape) plt.contourf(xx, yy, Z, levels[0, 0.5, 1], cmapplt.cm.Spectral, alpha0.8) plt.scatter([0, 1], [0, 1], cred, edgecolorsk, s100) plt.scatter([0, 1], [1, 0], cblue, edgecolorsk, s100) plt.title(XOR Decision Boundary) plt.show()6. 从代码回看反向传播原理现在我们已经实现了完整的MLP让我们从代码角度重新理解反向传播的数学原理。6.1 链式法则的实际应用在代码中我们计算梯度时实际上应用了链式法则输出层权重梯度 ∂Loss/∂Output * ∂Output/∂Z * ∂Z/∂Weights对应代码中的output_delta output_error * sigmoid_derivative(y_pred) neuron.weights - lr * output_delta * hidden_output6.2 误差反向传播的矩阵视角我们可以用矩阵运算更高效地实现反向传播# 前向传播 hidden_output sigmoid(np.dot(inputs, hidden_weights.T) hidden_bias) output sigmoid(np.dot(hidden_output, output_weights.T) output_bias) # 反向传播 output_error output - y_true output_delta output_error * sigmoid_derivative(output) hidden_error np.dot(output_delta, output_weights) hidden_delta hidden_error * sigmoid_derivative(hidden_output) # 权重更新 output_weights - lr * np.outer(output_delta, hidden_output) hidden_weights - lr * np.outer(hidden_delta, inputs)这种实现方式更接近工业级深度学习框架的内部机制。7. 扩展与优化我们的基础MLP已经能解决异或问题但要让网络更强大还需要考虑以下改进7.1 添加动量项动量(Momentum)可以帮助加速训练并避免局部极小值# 在Neuron类中添加 self.velocity_weights np.zeros_like(self.weights) self.velocity_bias 0 # 更新规则改为 self.velocity_weights momentum * self.velocity_weights - lr * grad_weights self.weights self.velocity_weights7.2 实现Mini-batch训练批量训练可以提高训练效率并得到更稳定的梯度估计def update_weights_with_batch(neurons, gradients, lr): batch_size len(gradients) for neuron, grad in zip(neurons, zip(*gradients)): avg_grad np.mean(grad, axis0) neuron.weights - lr * avg_grad7.3 交叉熵损失函数对于分类问题交叉熵通常比MSE更合适def cross_entropy(y_true, y_pred, epsilon1e-12): y_pred np.clip(y_pred, epsilon, 1. - epsilon) return -np.mean(y_true * np.log(y_pred) (1-y_true)*np.log(1-y_pred))8. 从异或到更复杂问题虽然我们以异或问题为起点但同样的MLP结构可以扩展到更复杂的任务模式识别手写数字识别、图像分类时间序列预测股票价格预测、天气预测自然语言处理情感分析、文本分类# 扩展网络结构示例 class DeepMLP: def __init__(self, layer_sizes): self.layers [] for i in range(len(layer_sizes)-1): self.layers.append(Layer(layer_sizes[i], layer_sizes[i1])) def forward(self, x): for layer in self.layers: x layer.forward(x) return x在实现异或网络的过程中最让我惊讶的是权重初始值对训练成功率的显著影响。有时候需要多次随机初始化才能找到可训练的起点这让我理解了Xavier初始化等高级技巧的价值。当第一次看到网络成功学会异或逻辑时那些抽象的数学公式突然变得具体而生动——原来反向传播就是在调试器中观察这些数字如何一步步调整自己最终形成正确的决策边界。

Golang怎么做WebSocket服务_Golang WebSocket教程【实战】

应使用 gorilla/websocket 的 Upgrader.Upgrade() 启动服务，禁用手动 HTTP 响应；读写需分离 goroutine，用 ReadMessage/WriteMessage 处理消息，设读写超时，连接断开时主动清理资源。用 gorilla/websocket 启动一个基础…...

2026/4/18 23:44:27 阅读更多 →

求解复合材料频散曲线用Comsol图表示算例皆现

comsol求解复合材料的频散曲线，图示中皆为复现的算例在COMSOL Multiphysics中使用“固体力学”模块和“特征频率”研究，对复合材料结构进行参数化扫描以计算其弹性波频散曲线的完整项目。其核心在于通过周期性边界条件和对称性设置，来高效地求…...

2026/4/18 23:33:21 阅读更多 →

FPGA显示驱动入门：手把手教你用DE模式点亮RGB888屏幕，告别时序混乱

FPGA显示驱动实战：DE模式驱动RGB888屏幕的完整指南第一次接触FPGA显示驱动时，我被时序参数表里那些HBP、VFP之类的缩写搞得晕头转向。直到在达芬奇开发板上成功点亮RGB888屏幕，才真正理解DE模式带来的简洁性。本文将分享如何绕过传统HV模式的…...

2026/4/18 23:29:16 阅读更多 →

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构在开发中大型Unity项目时，UI系统的复杂度往往随着功能迭代呈指数级增长。当项目包含多个场景、数十个界面和数百个交互元素时，开发者常会遇到以下典型问题&#…...

2026/4/19 0:00:20 阅读更多 →

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

1. 整型常量后缀的底层原理第一次看到1ULL这种写法时，我盯着屏幕愣了三秒——数字后面加字母是什么黑魔法？直到在32位系统上调试一个计数器溢出bug后，才真正理解这些后缀的重要性。整型常量后缀实际上是告诉编译器："别用默认…...

2026/4/19 0:02:18 阅读更多 →

VisionMaster企业实操训练系列课程

VisionMaster企业实操训练系列课程主要出于，快速会设计视觉引导定位项目引导定位原理原理演示 1.单相机带角度定位引导 2.12点标定 3.单点抓取 4.上下相机对位引导 5.单相机带角度定位引导（相机在机械手上）...

2026/4/19 0:02:22 阅读更多 →

C#怎么限制Task最大并发数_C#如何自定义TaskScheduler【进阶】

SemaphoreSlim 是控制 Task 并发数最直接轻量的选择，通过异步闸门限制同时执行任务数，需配对 WaitAsync() 和 Release() 并在 finally 中确保释放；自定义 TaskScheduler 适用场景极窄，ParallelOptions.MaxDegreeOfParallelism 仅适…...

2026/4/19 0:15:18 阅读更多 →