1. 铁电存内计算原位退火器技术解析组合优化问题Combinatorial Optimization Problems, COPs是计算机科学和运筹学领域的核心挑战之一广泛应用于物流路径规划、芯片布局设计、资源调度等关键场景。这类问题的NP难特性使得传统基于冯·诺依曼架构的求解方法面临计算效率瓶颈。近年来存内计算Compute-in-Memory, CiM技术与新型存储器件相结合为解决这一难题提供了创新思路。1.1 组合优化问题的计算瓶颈Max-Cut、图着色、背包问题等经典COPs通常可转化为伊辛模型Ising Model或二次无约束二进制优化QUBO形式求解。传统求解方法存在两个主要瓶颈计算复杂度高伊辛能量计算涉及向量-矩阵-向量VMV乘法时间复杂度达O(n²)。例如在3000节点Max-Cut问题中单次迭代就需要处理900万次乘法运算。硬件开销大模拟退火算法需要频繁计算指数退火因子e^(-ΔE/T)在数字电路中实现这类超越函数需要复杂的逻辑单元和大量时钟周期。实测数据表明传统CiM退火器在解决2000节点问题时仅指数函数计算就消耗了总能耗的63%和总时间的58%。1.2 铁电器件的计算优势铁电场效应晶体管FeFET因其独特的物理特性成为CiM架构的理想选择非易失性存储通过极化状态存储数据断电不丢失电压驱动操作写入能耗可低至fJ级别CMOS兼容可直接集成在标准逻辑工艺中多态特性单个器件可实现多值存储双栅FeFETDG FeFET进一步扩展了器件功能其背栅Back Gate电压可动态调节阈值电压V_TH为实现原位计算提供了物理基础。实验测量显示当背栅电压从-3V变化到5V时DG FeFET的导通电流可调节范围超过3个数量级。2. 增量能量转换方法创新2.1 传统直接能量计算的局限现有CiM退火器采用直接能量Direct-E转换方法每个退火迭代包含三个计算密集型步骤新能量计算E_new σ_new^T J σ_new能量差计算ΔE E_new - E退火判断exp(-ΔE/T) random(0,1)这种方法需要完整计算n×n耦合矩阵的所有元素即使仅翻转少量自旋状态通常|F|≤5。在硬件实现中这导致CiM阵列激活面积大静态功耗高ADC转换次数多动态能耗显著数字部分需要复杂超越函数计算单元2.2 增量能量E_inc转换原理我们提出增量能量转换方法通过数学重构将计算复杂度从O(n²)降至O(n)能量差分解当翻转自旋集合F时ΔE仅与F和其邻域自旋的耦合相关。通过引入标记向量σ_f式7-8可将ΔE表达为 ΔE 4σ_r^T J σ_c其中σ_c仅保留翻转自旋状态σ_r保留未翻转状态。这样有效计算项从n²减少到(n-|F|)×|F|。退火因子简化用分段线性函数近似指数退火因子 f(T) ≈ a/(bTc) d实验表明在T∈[0.1,1.0]范围内该近似误差2.3%却节省了90%以上的计算资源。增量能量形式最终合并为单步计算 E_inc σ_r^T J σ_c · f(T)图1展示了传统Direct-E与增量E_inc方法的计算流程对比。在解决3000节点问题时E_inc方法将每次迭代的乘法操作从900万次降至约1.5万次假设|F|5。3. DG FeFET存内计算阵列设计3.1 器件级计算原语DG FeFET的独特四端结构前栅FG、背栅BG、漏极DL、源极SL天然支持四输入乘法运算I_SL x·G·y·z其中G存储的阈值状态1/低V_TH或0/高V_THx,y二进制输入FG和DL电压z模拟输入BG电压通过精心设计BG电压与温度T的映射关系图2单个DG FeFET即可实现E_inc的部分计算 E_inc,p σ_r · J_ij · σ_c · f(T)3.2 阵列级架构创新DG FeFET交叉阵列采用分层设计实现完整E_inc计算存储层n×m交叉阵列mn×kk为权重量化位数每个J_ij映射到1×k子阵列存储k位权重支持正负权重分离存储避免信号抵消计算层行驱动σ_r向量通过FG输入列驱动σ_c向量通过DL输入全局控制f(T)通过BG电压调节读出层每k列共享1个8:1多路复用ADC移位相加电路实现k位权重重构数字累加器完成最终E_inc计算关键电路设计参数ADC分辨率8位满足98%成功率需求BG电压步进10mV对应温度分辨率0.01单元电流范围100nA-10μA22nm工艺下4. 原位退火算法实现4.1 温度映射机制DG FeFET的背栅电压V_BG与温度T建立线性映射V_BG 0.7 - 0.01×T (V)这种映射使得高温阶段T1.0V_BG0.6V低温阶段T0.1V_BG0.69V终止条件T0V_BG0.7V自动停止实验数据显示该方案温度控制精度达±0.005远优于数字温控的±0.02波动。4.2 退火流程优化算法1给出了完整的原位退火流程其创新点包括选择性激活仅更新翻转自旋对应列减少70%以上阵列激活并行判决E_inc≤0时直接接受新解避免随机数生成温度调度支持线性/指数/自适应多种降温策略实测对比显示与传统模拟退火相比该方法在相同迭代次数下收敛速度提升2.1倍最优解质量提高12%能耗降低3个数量级5. 实测性能与对比分析5.1 硬件开销对比在22nm工艺下对三种方案进行SPICE仿真比较指标CiM/FPGACiM/ASIC本方案能量(3000节点)1.51mJ1.35mJ0.9μJ时间(3000节点)81.5ms72.3ms4.6ms芯片面积12.3mm²9.8mm²3.2mm²成功率(%)505098本方案优势主要来自ADC使用量减少8.15倍消除数字指数计算单元阵列静态功耗降低92%5.2 问题规模扩展性在不同节点规模的Max-Cut问题上测试节点数能量(μJ)时间(ms)成功率(%)8000.210.529910000.381.079820000.632.859730000.904.6098数据表明随着问题规模扩大本方案的优势更加显著。当节点数从800增至3000时传统方案能耗增长17.2倍本方案能耗仅增长4.3倍6. 应用场景与实施建议6.1 典型应用场景物流路径优化50节点TSP问题可在0.3ms内求解芯片布局1000单元布局优化能耗0.5mW无线资源分配实时调度延迟1ms6.2 实际部署注意事项工艺变异应对采用3σ设计余量补偿FeFET阈值波动集成片上校准电路补偿ADC偏移温度控制优化初始温度T0建议设为最大|ΔE|的5倍采用自适应降温策略提升收敛速度可靠性增强每10^6次写操作执行刷新采用ECC保护权重存储实测中发现保持翻转自旋数|F|≤5可在计算精度和效率间取得最佳平衡。当|F|3时成功率达到峰值98.7%。7. 未来发展方向多芯片扩展通过光互连实现万节点级求解混合精度关键路径采用8位其余4位动态重构支持运行时问题类型切换感存算一体集成传感器直接处理优化问题铁电存内计算退火器的出现为组合优化问题的硬件加速提供了新范式。其核心价值在于通过器件-算法协同设计将物理特性转化为计算优势。这种设计理念也可延伸至其他NP难问题的求解架构中。