“加持”东芝、三星、SK海力士的3D CT闪存性能与可靠性分析和优化

Charge Trap VS Floating Gate,（钢铁侠VS美国队长既视感）你站哪一队？...

现在我们盘点技术热词，似乎人工智能和区块链话题热度呈直线上升。但其实所有这些都构建在闪存的基础架构上，而闪存作为数据存储的基石，其可用性，可靠性和性能是对用户的最基本保障，因此如何从基础设施角度对闪存的可靠性，可用性以及测试方法展开研究业内企业还是研究机构而言都至关重要。

2018年12月12日，中国存储与数据峰会，存储可靠性与测试技术论坛上，华中科技大学副教授吴非老师为我们带来了《3D CT闪存性能和可靠性分析和优化方法研究》的主题演讲。主要内容为3D堆叠闪存机理分析，3D CT闪存性能特性和可靠性特性分析，以及快速拟合读参考电压优化读性能方法。而站在CT队列的代表方则主要有东芝，三星，SK海力士，长江存储等。以英特尔和美光为代表支持Floating Gate，瞬间有种Charge Trap VS Floating Gate（钢铁侠VS美国队长既视感），那么问题来了你站哪一队？

以下为演讲实录

现在的3D闪存有两种组织架构，Floating Gate（浮栅）和Charge Trap（电荷捕获）。我今天主要分享关于Charge Trap目前的可靠性。

华中科技大学的存储研究极具历史性，我们的前辈从六十年代开始就从事硬盘到SSD到各种存储系统，海量的存储系统和云存储，到今天的各种微型存储器研究，科研队伍达到500人，甚至超过了一些中型企业的人数。

首先来看一下闪存。两年前，我们基本上切换到了3D堆叠的闪存模式，3D NAND包含两大阵营，阵营一以英特尔和美光为代表，采用的是Floating Gate（浮栅）型3D堆叠闪存，阵营二以东芝、三星，SK海力士和我国的长江存储为代表，他们采用的是Charge Trap（电荷捕获）结构。

其中，两种结构的本质区别是Charge Trap的结构明显可以看到中间的存储层很薄，而Floating Gate存储层特别厚。原因在于采用Floating Gate的结构是一个导体，上下两层有两个绝缘体构成了氧化层，我们是将电子存在浮栅层里，而Charge Trap中间的存储层，我们成为电荷捕获效应，是一个绝缘体，我们知道一个绝缘体的好处在于其电荷存储进去就像一个网状结构，电子就被网住不容易出来，因此相对来说，Charge Trap结构的可靠性会更好一些。

Floating Gate的存储层更薄，原因还在于它是一个导体的形式，随着我们对它的写入次数增加，这个层会被磨的越来越薄，因为是导体，它就会像形成一个通路一样，电荷很容易泄露，我们的数据就没有办法在里面正常的存储，因此Floating Gate的耐久性和Charge Trap比起来，会更差。

而Charge Trap因为是绝缘体，像一个渔网一样的，电荷被网进以后，不容易跑出，因此这种结构，电荷易进不易出，耐久性就会好一些。但Charge Trap也有它的问题，它的数据保持特性（性能指标）更差，稍后我们来看一下原因。

我们知道数据是基础，存储是基石。为了满足大数据时代的需求，我们要让存储容量越大越好，再看今天我们构建的大容量存储芯片，实际上我们只做了三件事：

1.把“房子”越盖越高。采用了3D堆叠的方式。

2.“房间”里坐的人越来越多，一个单元存储多个bit。

3.把“墙”越做越薄，制程工艺越来越小，带来的问题就是串扰越来越严重。

而从系统和设备角度出发，我们要构建一个可靠的设备或存储介质，必须要清晰地理解这个介质的不可靠性究竟是如何产生的？

现在我们来看一下针对Charge Trap结构的3D闪存。我们对它从性能角度上进行了完整性测试。从测试的结果来看，性能上无外乎是读写擦三件事，从它的编程特性来看，随着P/E Cycle（Program/Erase,编程和擦除周期）的增加，其延迟是越来越小的。

原因是我们在3D闪存的编程里是一个隧穿效应，电子更容易进去了，因此它的编程延迟就更小。而从擦除特性看，它的电荷是易进不易出，Charge Trap结构，实际上氧化层很薄，在写入过程中，又会产生额外的缺陷，就是导致了负电压，我们知道，本来就加了一个很高的正电压，有负电压后正电压变小，导致电荷更不容易出来，因此它的编程延迟变得越来越大。同时我们看到，这个特性呈现出了一个很强的阶梯特性，前期只需要校验一次，后期要校验多次。

它的独特在于读取Lower page（低内存页）和upper page（高内存页）的延迟基本是一条直线，而它的middle page（中间页）最慢，想知道读取过程是怎么发生的，那么对于lower page和upper page，我们要读两次，而对于一个middle page我们有更多次的操作，因此中间页的延迟会更大一些。

通过这些特性，我们知道了大概的趋势。好处在于我们作为一个用户在用的时候，比如大家用的手机，你会知道随着你使用时间变长，比如手机你用了半年以上，它的磨损度变大，你会觉得手机变慢。

现在，在手机变慢的过程里，我们的存储存在很大的瓶颈问题，根据测试过程中所产生的曲线拐点特性，实际上，我们是可以对闪存寿命做一些动态预测的。

第二，我们看它的可靠性特征。我们发现Charge Trap和Floating Gate里，Charge Trap有一个新特性，我们称之为Fast DeTrapping(快速电荷释放)，就是一个数据刚写入Floating Gate里，或者内存页的时候，我们会发现它前期的误码率上升非常非常快，也就是说在一秒到十秒的时候，你的数据刚写进去，你去读，这个数据基本是不可用的特性。

我们来分析一下它的原因，实际上在Floating Gate内部有一个节点松驰效应，有一个电荷移动，就导致了阈值电压进行很大的漂移，写进去马上读是用自己的原始电压，因此看上去错误率会很高。

同时我们发现Charge Trap写入的时候，因为我们说Trap是捕获效应，数据刚刚写进，叫做shadow trap（影像捕获），写入一个浅的区域，实际上电荷没有钩住，因此这时电荷很容易被泄露出去，它必须经过一秒到十秒之后，才能写到存储层里，这样我们的电荷才是稳定的状态。因此，对于Charge Trap结构最后有一个不可靠问题，我们称之为Fast DeTrapping。

第二，研究可靠性时，我们关注两个问题——Endurance（耐久性）和，Read Disturb(读串扰)的问题，我们看一下误码率实测的图，可以发现Charge Trap整个TLC的特性，如果我们只考虑耐久性，它的P/E Cycle（编程擦除周期）能支撑的次数其实已经接近 2D的MLC特性，整个在空间分布上，不管是Floating Gate还是Charge Trap，在其内部都会存在块分布以及页分布的不均衡的问题，在测试的过程中，它最多的时候基本可以查到一个数量级的差别，如图显示，可能有的已经到了10-3,有的在10-2指数关系上。

从整个P/E Cycle和EBER（过高误比特率）来看，建模过程基本呈现指数级关系，而从总的耐久性来看（C）图的时候，我们认为它能支撑P/E Cycle的有两个指标，一个是原始误码率要低于5×10-3，第二个是编程延迟，在数据往里写的时候，超过一定时间，就会给你一个程序，因此这个时候我们看到平均寿命的次数基本上与MLC持平。

第三个我们想研究的问题，是编程过程中增加了电压，我们实际上在编程配置时给它增加了电压，这也增加了vpass电压，会导致阈值电压有一个漂移，这个漂移过程中，我们会看到整个阈值电压是向右漂移的，而整个低状态位受阈值电压的左右更多一点。

当你想从系统层次上弥补电压漂移问题的时候，在构建模型时，要考虑它其实也是一个阶梯性弥补的方式。

然后是Retention（数据保存时间）的问题，它跟RBER（过高误比特率）的关系，实际上是一个对数关系，我们会用AI的方法对这条线做拟合处理，就怕这条线是一个抖动线，那么就很难用拟合的方法把这条线拟合出来，而对于Retention和RBER的对数关系，当呈现非拐点线的情况下，我们就可以去把这条线用拟合的方法实现，目前我们实验室也做了对应的研究工作，基本上可以把这条线全部拟合出来。

总结一下，从特性方面，与Floating Gate相比，Charge Trap的数据耐久性非常好，但数据保存时间不长。

第二，Charge Trap有一个典型问题，从做控制器的层面来讲，一定要把这一点避开。

第三个，编程和read disutrb都会使电压向右漂移，Retention是向左漂移。而基于最小二乘快速拟合电压的方法（但吴教授该部分演讲介绍目前暂不公开），能有效地提高闪存的读取性能，降低它的原始误码率。（以上是基于速记整理，未经本人审核）

关于DOIT