【读写原理】不论是SLC、MLC,还是TLC,它们都利用了量子力学的隧道效应,在控制门上加较高的编程电压,使电子穿越隧道氧化层到达浮栅,并聚集在浮栅上,存储信息。擦除时仍利用隧道效应,将电压反转,从而消除浮栅上的电子,达到清除信息的结果。电子在反复来回穿越的过程中会对隧道氧化层造成不可逆的磨损,使其不能再有效保持浮栅门中的电荷,并最终失效。
【NAND寿命量化指标】P/E Cycles:写入/擦除(Program / Erase)次数,一写一擦就会消耗NAND的1个P/E。
SLC NAND的P/E次数可达100000,MLC约为3000,
主流的消费级TLC NAND大约在500~1000;
而企业级eTLC则高得多,一般为5000~10000
【写入放大】根据NAND工作原理,它以Page(页)为单位写入数据,以Block(块)为单位进行擦除,在新数据写入时,需要先对写入位置进行擦除操作,而不是像HDD那样可以直接覆盖。由于一个Block中含有多个Page,因此在擦除时需要先对里面的有效数据进行保留,重新写入,引发GC(Garbage Collection,垃圾回收)和写放大(WA,Write Amplification)。即,用户写1笔数据,真正写入到SSD中的可能是2~3笔,这样无疑会加剧NAND的P/E消耗。
【测试写入寿命的三种模式】在对硬盘的写入寿命测试中,通常用三种典型的负载模型:顺序、纯4K随机和JESD219中定义的IO模型,并引入WAF(写放大因子,=实际写入量/用户写入量)的概念。
顺序写入的WAF最小,约等于1,实际场景很少有纯顺序工作负载,此数值意义不大;
4K随机看似合理,但由于不含小于4K的IO操作,和用户实际场景也有一定差别;
JESD219则对企业级用户的实际业务情况进行了参考和模拟,为SSD写入负载测试带来了行业参考标准,它包含从512 bytes到64K不同权重IO分布的组合,这些小于4K的IO也会进一步带来写放大。
此外,JESD219还根据企业级IO模型特点,对冷热数据进行了定义,借此触发磨损均衡(Wear-leveling),引入额外数据搬移,这也是JESD219标准下SSD的写放大会比纯 4K随机负载更高的原因。
当P/E Cycles达到厂商承诺的顶点时,SSD寿终。此时虽然能继续进行读取、写入操作,但会出现数据保持能力急剧下降,出现数据错误率上升、数据损坏甚至丢失等问题,这样的隐患仅通过读写测试很难得到。此时SSD已不具备可靠特性,不建议继续使用。
【SSD寿命单位】有两种,PBW(或TBW)和 DWPD:
DWPD(硬盘生命周期内,全盘每天可写入的次数),企业级SSD在纯顺序工作负载下的DWPD可以达到5,在JESD219定义负载下,DWPD可能只有1。SSD寿命指标,
在SSD的生命周期内,每天允许全盘写入的次数。
PBW(或TBW):全称Petabytes Written(或Terabytes Written),在SSD的生命周期内允许的主机端数据写入量。1PBW = 1000TBW
DWPD和PBW/TBW可以相互换算,公式如下:
3.2TB,5年DWPD为3.4,那么其TBW为3.2TB*3.4*365*5,即19856TB。
DWPD的计算和硬盘服役时间有关,对企业级SSD来说,一般以5年产品保修期为参考。以PBlaze5 926系列企业级SSD为例,其每天3.4 DWPD写入量对应为5年生命周期,如果这块SSD只需要服役3年,那么其每天的DWPD可以达到5.7。
【SSD的寿命和MTBF的关系】
寿命代表SSD可以用多久,MTBF(Mean Time between Failures,平均故障间隔时间)则代表了寿命期间,这块SSD是否可靠。上文提到,在SSD生命周期内,其可靠性表现应始终满足行业标准(如企业级SSD需保证用户容量不变,UBER ≤ 10E-16,FFR≤ 3%,断电后40℃的室温下数据可以保持3个月);当SSD寿命耗尽,即达到预定的最大P/E次数,其可靠性会出现大幅下降。
(DVOL本文转自:中国DV传媒 http://www.dvol.cn)