IBM攻克3比特PCM-MLC技术：算法与电路创新突破存储密度瓶颈

张

张建站

2026/5/13 21:23:06

10分钟阅读

1. 项目概述IBM如何攻克3比特/单元PCM-MLC的技术壁垒在非易失性存储器领域相变存储器Phase Change Memory, PCM一直被视为下一代存储级内存Storage Class Memory, SCM的有力竞争者。2016年IBM苏黎世研究院在IEEE国际存储器研讨会上公布了一项里程碑式的成果他们成功在一个4百万单元等效32兆位的PCM阵列中实现了在高温环境下、经历100万次擦写循环后仍能可靠存储每单元3比特3 bits/cell数据。这不仅仅是实验室里的一个漂亮数字它直接挑战了当时业界另一个主流方向——3D堆叠单比特单元PCM的技术路径。简单来说IBM证明了通过提升单个存储单元的“信息密度”而非单纯堆叠物理层数同样能实现低成本、高密度的目标并且可能规避了堆叠技术中棘手的良率问题。对于从事存储芯片设计、嵌入式系统开发或是关注新型存储器技术的工程师和研究者而言理解这项技术背后的“为什么”和“怎么做”远比知道这个结果更重要。它揭示了一条通过算法和电路设计创新来克服物理材料固有缺陷的系统工程思路。2. 核心挑战解析为什么3比特PCM如此困难要实现每单元存储3比特数据意味着一个PCM单元需要稳定地区分出2^38个不同的电阻状态。这听起来像是把音量旋钮从“只有开关”变成“有8个精确档位”。但PCM材料的特性让这件事变得异常复杂。2.1 电阻漂移一个会“自我变化”的存储点PCM的核心原理是通过电流脉冲加热硫系化合物材料使其在晶态低电阻和非晶态高电阻之间转换。多级存储MLC则是在这两种极端状态之间精确控制出多个中间电阻态。然而一个被称为“电阻漂移”的现象是首要敌人。非晶态硫系化合物的原子结构会随着时间缓慢弛豫导致其电阻值随时间对数增长。这意味着你今天写入的一个代表“010”的电阻值几个月后可能会漂移到接近“011”的范围。对于需要精确区分8个状态的3比特存储这种漂移足以导致数据读取错误。传统的解决方案是使用参考单元进行实时校准但这会占用宝贵的芯片面积并增加电路复杂性。2.2 温度敏感性环境不是恒温箱芯片的工作温度并非恒定。从室温到芯片内部热点温度变化可能超过50°C。PCM材料的电阻具有负温度系数即温度升高电阻下降。这种变化与电阻漂移效应交织在一起使得同一个物理状态在不同温度下呈现的电阻值完全不同。想象一下你的8档位旋钮其刻度会随着天气冷热而伸缩这给读取电路的设计带来了巨大挑战。2.3 耐久性要求一百万次擦写不是终点作为存储级内存的候选者PCM需要具备较高的耐久性Endurance。100万次擦写循环是一个关键指标。在反复的编程操作下材料会发生疲劳导致电阻窗口最高阻态与最低阻态之间的差值缩窄各中间状态的分布也会变得不稳定。这就要求存储和读取方案必须具备强大的容错和自适应能力不能依赖于初始校准后一成不变的参数。注意这三个挑战并非孤立存在而是相互耦合、同时发生的。一个鲁棒的解决方案必须能同时应对漂移、温度变化和老化这正是IBM工作的核心价值所在。3. IBM的三重创新技术组合拳IBM并没有发明新的PCM材料而是在读取、信号处理和编码这三个层面构建了一套完整的系统级解决方案。这好比不是去打造一个更精确的尺子而是发明了一套智能的测量和解读系统即使尺子本身会伸缩也能读出正确刻度。3.1 创新一抗漂移的单元状态度量新标准传统的读取方式是测量PCM单元的直流电阻。如前所述这个值会漂移和受温度影响。IBM团队提出了一种全新的读取度量标准称为“eM sensing”电导匹配感应。其核心思想不是测量绝对的电阻值而是通过施加一个非破坏性的、低于阈值开关电压的读取脉冲并分析其电流-电压I-V曲线的特定特征。具体来说他们利用了PCM单元在非晶态下独特的阈值开关特性之前的非线性I-V关系。通过提取这个曲线中的某个特征参数例如特定电压下的微分电导他们发现这个参数对电阻漂移的敏感度远低于直流电阻。你可以把它理解为电阻值像是测量一根橡皮筋拉伸后的绝对长度容易变而新的度量像是测量这根橡皮筋的某种“劲度系数”或“应力-应变曲线的形状特征”相对更稳定。这个新度量是后续所有处理的基础它从源头上减少了信号的不稳定性。3.2 创新二动态自适应的阈值检测方案即使采用了更稳定的度量8个状态的分布中心仍然会随着漂移、温度和老化发生整体移动和变形。固定不变的7个检测阈值用于区分8个状态很快就会失效。IBM的方案是动态自适应阈值。每次读取一小批存储单元例如一个页面时读取电路并不直接与预设的固定阈值比较而是先对这批单元读取出的“eM”信号值进行快速统计分析。系统会实时估算出当前这批数据所对应的8个电平的分布情况然后动态地计算出当前最优的7个检测阈值的位置。这个过程是自动、实时完成的无需外部干预或参考单元。这就好比一个智能的分拣机它不是按照固定的高度网格来分拣大小不一的苹果而是先快速扫描一下这一批苹果的整体大小范围然后动态调整网格的高度以确保分得最准。这种方法从根本上解决了环境变化和器件老化带来的电平分布漂移问题。3.3 创新三基于置换调制码的编码方案动态阈值调整很棒但它需要一个前提被读取的这一批数据其对应的8个电平出现的概率大致是均匀的或者至少其统计分布是可知的。如果一批数据全是“000”状态那么读取信号会全部聚集在一个电平附近系统就无法正确估算出其他7个电平的位置。为了解决这个问题IBM引入了调制编码具体来说是置换调制码及其并集。这不是传统的纠错码ECCECC是在用户数据后添加冗余校验位来检测和纠正错误。而调制编码是在写入数据时就对原始数据进行一种可逆的变换使得最终写入存储单元的符号序列满足特定的统计特性。例如这种编码会确保在任何一段编码后的数据中8个电平符号的出现频率被“塑造”得相对均衡或者其排列顺序遵循某种已知的规律。这样读取端在进行动态阈值调整时就能对电平的统计分布有一个可靠的先验预期从而更准确地进行估算和检测。解码时则需要结合电平统计估计技术从编码后的序列中恢复出原始用户数据。4. 技术路径对比MLC vs. 3D堆叠的深层逻辑IBM的Haris Pozidis博士在访谈中清晰地阐述了多级单元与3D堆叠单级单元两条技术路线的优劣。这不仅仅是技术选择更是商业和工程风险的权衡。4.1 良率与成本的博弈3D堆叠如3D XPoint通过在垂直方向堆叠多层存储单元和选择器如二极管来提升密度。其最大挑战在于良率乘法效应。假设单层制造的良率是YY1那么堆叠N层后的总良率约为Y^N。堆叠层数越多最终芯片可用的良率呈指数级下降这对大规模量产的成本是致命打击。而MLC/TLC三阶单元技术是在单层上实现多比特存储其良率逻辑与单比特单元相似不会引入额外的层间良率惩罚。从成本/比特角度看实现3比特/单元理论上成本/比特可降至单比特单元的1/3。而两层堆叠只能将成本/比特降至1/2。3D堆叠技术要达到与3比特MLC同等的成本效益理论上需要堆叠3层但这会使其良率问题更加严峻。4.2 技术融合的可能性当被问及是否可以将多比特技术与3D堆叠结合时Pozidis博士指出这在原理上是可行的。关键在于多级编程需要“写-验证”迭代操作这就要求选择器如二极管能够控制流过单元的电流这一点在堆叠结构中可以实现。读取验证则需要能够相对精确地测量单元状态而非简单的二进制阈值判断这对堆叠结构的传感放大器设计提出了更高要求。这条技术路径代表了未来的一个可能方向在有限的堆叠层数内如2-4层结合每单元2-3比特存储从而实现密度和成本的最佳平衡同时将良率风险控制在可接受范围内。5. 实验芯片与系统实现细节IBM用于验证这项技术的是一颗原型测试芯片其具体设计体现了工程上的务实考量。5.1 芯片架构与制造工艺该芯片采用了一个2×2百万单元的阵列架构上分为4个交错的存储体4-bank interleaved architecture。这种交错访问架构可以提高数据吞吐率隐藏部分访问延迟。整个存储阵列的物理尺寸为2×1000μm×800μm集成在90纳米CMOS基础工艺上。选择成熟的90nm工艺而非最先进的节点表明研究重点在于验证存储单元本身和电路/算法方案的可行性而非追求极限密度。PCM单元基于掺杂的硫系化合物合金被集成到这款作为特性表征载体的原型芯片中。5.2 数据采集与验证策略许多详细的可靠性数据如高温保持特性、耐久性测试并非来自全阵列而是来自全阵列中的一个64K单元的子集。这是一种非常高效且常见的工程实践。对全阵列进行百万次循环测试耗时极长通过对一个具有统计代表性的子集进行严苛测试足以验证方案的可行性和鲁棒性。测试内容包括在升高温度加速数据保留测试下监测比特错误率以及在连续擦写循环中观察错误率的变化。6. 潜在影响与应用前景展望IBM的这项成果将3比特/单元PCM从理论可能推向了工程可行的边缘为其在存储 hierarchy 中定位提供了新的弹药。6.1 作为独立的存储级内存凭借其字节级寻址、高速读写、高耐久性和非易失性3比特PCM-MLC有望成为DRAM和NAND闪存之间真正的存储级内存。它可以作为高速缓存或主内存的扩展用于需要频繁快速访问温数据的场景例如大型数据库的索引、实时分析的内存池。6.2 混合式存储应用另一种重要的应用模式是“混合式”存储将PCM与NAND闪存结合在同一存储系统中。PCM可以作为闪存的极速缓存或写入缓冲区。由于PCM的写耐久性远高于闪存且写入速度更快这种组合可以显著提升整个存储系统的性能和寿命。例如在写入数据时先快速存入PCM再由PCM在后台整理并批量写入闪存从而平滑写负载减少对闪存的写放大效应。6.3 对存储器设计哲学的启示这项研究更深层次的意义在于展示了系统-电路-器件协同优化的威力。当器件物理层面的改进遇到瓶颈如电阻漂移时通过电路层面的创新读取方法eM sensing和系统层面的智能算法动态阈值调整、调制编码可以构建一个“不敏感”于底层器件某些缺陷的鲁棒系统。这种思路对于其他面临类似物理限制的新型存储器如阻变存储器RRAM、磁变存储器MRAM的开发具有重要的借鉴意义。7. 常见问题与深入探讨7.1 这项技术与纠错码有何不同这是当时讨论中的一个焦点。有评论认为该方案看起来像一种“通用的、使用阈值的纠错码”。但IBM团队澄清其核心编码是调制编码而非纠错码。纠错码是在用户数据上附加冗余信息。写入的是数据校验位读取时通过校验位来发现和纠正数据中的错误。它处理的是已发生的错误。调制编码是在写入前对用户数据进行可逆变换改变其映射到物理状态的方式。目的是让存储的物理状态序列本身具有更好的抗干扰特性如均匀分布从而预防错误的发生或使后续的信号处理如动态阈值调整成为可能。它更像是一种“预防医学”而ECC是“治疗医学”。在实际系统中两者可以结合使用调制编码塑造信号动态阈值优化读取最后再用ECC纠正残余错误。7.2 读取干扰问题如何解决有评论提到了“读取干扰”问题。对于PCM读取干扰主要源于读取电流脉冲可能产生的焦耳热如果热量足够高可能会轻微改变非晶态的结构导致电阻发生微小漂移。IBM采用的eM sensing方案其读取电压被严格控制在低于阈值开关电压之下属于非破坏性读取本身就是为了最小化对单元的干扰。此外动态阈值调整机制本身也具备一定的容忍微小分布变化的能力。对于极高可靠性要求的场景系统层面可以配合磨损均衡和定期刷新等管理策略来进一步规避风险。7.3 这项技术的商业化路径还有哪些障碍尽管原型验证成功但走向大规模商业化仍需克服以下挑战制造成本与集成度需要在更先进的工艺节点如28nm, 14nm上实现PCM单元与CMOS逻辑的高密度、低成本集成并与现有闪存产线竞争。功耗优化多级编程需要多次“写-验证”迭代相比单级写入能耗更高。需要优化编程算法和电流驱动电路降低总体写入能耗。控制器与生态系统需要开发专用的、集成上述智能读取和编码算法的存储器控制器。同时需要操作系统和文件系统的支持以充分发挥其字节寻址和高速特性。长期数据保持的验证虽然通过了高温加速测试但对于企业级存储应用仍需在更长时间尺度如10年和更复杂工作负载下验证其数据保持能力。IBM的这项工作本质上是为高密度PCM打开了一扇关键的大门。它证明了一条不单纯依赖3D堆叠的、通过“智取”来提升存储密度的道路是可行的。在存储技术多元发展的今天这种在算法和系统层面挖掘器件潜力的思路其价值或许不亚于发明一种新的存储材料。对于工程师而言理解这种跨层级的协同设计思维可能比记住“3比特/单元”这个数字更为重要。

手把手教你用WaveDrom+Markdown写技术文档：让时序图“活”起来

手把手教你用WaveDromMarkdown写技术文档：让时序图“活”起来在技术文档的世界里，时序图就像电路设计中的示波器——它能直观展示信号变化、状态转换和协议交互。但传统绘图工具生成的静态图片存在三大痛点：难以维护（每次修改需重…...

2026/5/13 21:20:59 阅读更多 →

对比直接使用官方 API 与通过 Taotoken 聚合调用的账单清晰度

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度对比直接使用官方 API 与通过 Taotoken 聚合调用的账单清晰度在项目开发中同时接入多个大语言模型服务，已成为提升应用…...

2026/5/13 21:19:23 阅读更多 →

从CDN图片到本地截图：手把手教你搞定html2canvas跨域（Vue/React项目实战）

从CDN图片到本地截图：手把手教你搞定html2canvas跨域（Vue/React项目实战） 在当今前端开发中，生成网页截图已成为社交分享、报告导出等功能的常见需求。然而，当项目中的图片资源托管在CDN或独立静态服务器时&#xff0c…...

2026/5/13 21:18:07 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/12 23:12:06 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/13 15:11:14 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/12 17:56:15 阅读更多 →