1. 量子纠错与表面码基础量子计算面临的核心挑战之一是量子比特的脆弱性。与环境相互作用导致的退相干效应会迅速破坏量子信息。量子纠错码QEC通过将逻辑量子比特编码到多个物理量子比特上为这一难题提供了解决方案。在众多量子纠错方案中表面码Surface Code因其较高的错误阈值和相对简单的二维结构成为当前最有前景的方案之一。表面码的核心思想是将量子信息分布式存储在一个二维晶格的物理量子比特上。通过周期性测量特定稳定子stabilizer算符我们可以检测错误的发生而不直接测量编码的量子态本身。这些稳定子测量结果形成的症状syndrome模式为后续的解码过程提供了关键输入。表面码的解码过程本质上是一个模式识别问题我们需要根据观察到的症状模式推断最可能发生的物理错误组合。这一过程通常分为三个关键步骤症状提取通过辅助量子比特测量稳定子算符症状处理将测量结果转换为匹配图matching graph中的顶点激活错误推断在匹配图上寻找最优错误链解释2. 最小权重完美匹配(MWPM)与边缘权重优化最小权重完美匹配Minimum-Weight Perfect Matching, MWPM算法是表面码解码的主流方法之一。该算法将解码问题转化为图论问题其中图中的顶点代表测量到的症状边代表可能的错误链连接两个症状边权重反映对应错误发生的概率MWPM算法的目标是找到一组边使得每个激活的症状恰好被一条边覆盖所有选中边的权重之和最小PyMatching是目前广泛使用的MWPM实现支持相关和无关两种匹配模式。相关匹配通过二次解码过程利用第一次匹配的结果重新加权边通常能获得更好的纠错性能。边缘权重的准确性直接决定了MWPM解码的成功率。传统方法直接从已知的电路级噪声模型计算边权重但在实际系统中噪声参数往往无法精确获知。这就引出了噪声学习架构的核心价值——通过神经网络从症状统计中推断最优的边缘权重。3. 噪声学习架构设计3.1 网络结构概述论文提出的噪声学习架构采用混合CNN-MLP设计主要组件包括卷积神经网络CNN部分4个卷积层滤波器数量分别为[128, 256, 256, 128]3×3卷积核GroupNorm归一化32组最后一层使用dropout0.1多层感知机MLP部分3个全连接层神经元数量分别为[256, 128, 25]dropout率为0.2使用GeLU激活函数tanh近似网络采用全局平均池化GAP连接CNN和MLP部分后接MLP输出的logit平均处理。输出参数化采用有界对数空间表示确保输出概率的合理性。3.2 训练策略与超参数训练过程采用以下关键设置损失函数结合边缘损失18个边公式和超边损失43个超边公式优化器AdamW权重衰减3×10^-2学习率5×10^-4采用warmup后衰减策略100步warmup在[0.25, 0.5, 1.0]里程碑处应用γ0.7的衰减指数移动平均EMA衰减率0.0001批量大小每GPU 4,096个样本训练距离d21和d31的表面码每个训练epoch包含250个随机采样的p向量每个p向量对应4,096次射击shot。整个模型约126万个参数使用32块GPU8节点×4 GPU进行分布式训练。4. 边缘权重计算详解4.1 噪声模型参数化电路级噪声模型由25个概率参数描述状态准备错误|⟩准备的X错误概率PSX|0⟩准备的Z错误概率PSZ测量错误X基测量的错误概率PmXZ基测量的错误概率PmZCNOT层空闲错误单量子比特Pauli错误P(X,Y,Z)_idle,CNOTSPAM窗口空闲错误数据量子比特上的Pauli错误P(X,Y,Z)_idle,SPAMCNOT错误15种双量子比特Pauli错误P(PiPj)_CXPi⊗PjPi,Pj∈{I,X,Y,Z}排除II4.2 边类型与计算公式匹配图包含四种边类型每种类型有多个子类空间类边Spacelike连接同一测量轮次的不同稳定子3种子类型S1-S3由数据量子比特错误引起时间类边Timelike连接相邻测量轮次的同一稳定子4种子类型T1-T4由辅助量子比特/测量错误引起对角类边Diagonal连接相邻测量轮次的不同稳定子5种子类型D1-D5由数据和测量错误的组合引起边界边Boundary连接稳定子到逻辑边界6种子类型B1-B6由边界附近的测量错误引起每种边类型的概率计算采用XOR组合方法。对于多个独立错误机制翻转同一对检测器的情况其概率组合公式为P1⊕P2 P1 P2 - 2P1P2对于n个组件的组合按顺序应用XOR操作⊕_{i1}^n ci c1⊕c2⊕...⊕cn4.3 X稳定子图边公式示例以X稳定子图的S1类型边为例其概率计算包含以下组件的XOR组合P(Y Y)_CX P(ZZ)_CX, P(IZ)_CX P(XZ)_CX, P(Z)_I, P(Z)_I, P(Y Z)_CX P(Z Y)_CX, P(I Y)_CX P(X Y)_CX, P(Y)_I, P(Y)_I类似地其他边类型也有对应的复杂组合公式。论文中提供的完整公式体系适用于任意距离d≥5的表面码因为边概率仅取决于局部稳定子几何而非全局编码尺寸。5. 实验结果与分析5.1 噪声学习模型的性能评估实验评估了训练好的噪声学习模型在两个连续轮次的表面码症状统计上的表现。模型输出的概率向量用于构建检测器错误模型DEM分别用于无关和相关PyMatching解码。关键发现包括在d31上使用无偏损失函数训练的模型在d21和d31数据上表现最佳在较小距离d9和d13上d21模型无论有偏还是无偏表现更好相关PyMatching相比基准直接使用电路噪声模型计算的概率有LER改进无关匹配中学习到的边权重接近但略逊于基准性能这一结果符合理论预期相关PyMatching作为启发式算法其第二次解码过程可以利用第一次匹配的解进行边重加权因此真实电路级概率不一定是该流程的最优输入。而噪声学习模型预测的概率有时能产生更有效的第一次匹配从而触发更有效的重加权带来更好的第二次修正。5.2 预解码器场景下的应用将噪声学习模型应用于预解码器Model 5输出的症状统计时发现无论是相关还是无关PyMatching使用学习到的概率都比直接使用原始电路级概率的性能稍差。这主要是因为预解码器产生的残差错误具有特定结构——几乎所有的残差错误在应用全局解码器时都会形成长度大于(d-1)/2且平行于目标逻辑可观测量的字符串。对于这种结构无论应用何种全局解码器最小权重修正都会产生逻辑错误。6. 批处理实现的并行化改进通过批处理技术研究实现了显著的并行化改进在p0.006和(13,13,13)输入体积下纯无关PyMatching需要Npar8预解码器无关PyMatching仅需Npar5同时每块速度提升1.993倍使用ReLU激活函数增大批处理规模可进一步减少并行资源需求批大小2并行资源减少3.2倍速度提升1.993倍批大小4并行资源减少3.56倍速度与纯PyMatching相当批大小64并行资源减少12.49倍但速度降低20%尽管大批处理会降低单个块的处理速度但在需要空间和时间上并行块解码的量子算法中如晶格手术这种权衡可能是值得的——当需要数十万GPU时12.49倍的并行资源减少可以显著降低经典资源成本。7. 实际应用中的权衡考量通过分析表面码的逻辑错误率LER与距离d的关系可以发现pL(p,d) ≈ c1d(c2p)^((d1)/2)其中c10.01938c2116.95通过无关PyMatching数据拟合得出。假设量子算法要求所有逻辑操作失败概率不超过δ10^-10在p0.001时需要d21才能保证pL(p,d)δ如果使用不同解码器导致LER恶化α倍需要α≈4.39才会使所需距离从21增加到23这意味着在大多数量子算法场景中即使使用ReLU激活函数导致LER略有增加相比GeLU其带来的解码时间TDEC减少也是值得的权衡。8. 未来研究方向基于当前工作有几个有前景的未来研究方向在小物理错误率和大代码距离下缩小与相关PyMatching的性能差距通过改进训练数据增加罕见错误模式的代表性探索新的模型架构模型蒸馏技术训练过参数化的教师模型学习复杂、罕见的错误模式将知识蒸馏到更小的学生模型中极端量化优化推进到4位浮点NVFP4精度将量化感知训练QAT集成到预解码器训练流程中扩展到其他纠错码特别是颜色码color code适应晶格手术中的并行块解码开发同时处理空间和时间并行解码的架构