每一天,存储业界销售的SSD产品总量高达数百万块,而其给人留下的大印象就是能够显著加快系统引导与应用启动速度。不过其对于全天候不停转的数据中心来说意味着什么?管理员们又需要留心SSD所带来的哪些常见问题?

考虑到上述疑问,卡耐基-梅隆大学的Justin Meza及OnurNutlu与Facebook公司的Qiang Wu及Sanjeev Kumar共同开展了一项“闪存记忆体现场故障状况大型研究”,旨在了解SSD在日常运作中的实际表现。

基本方法

Facebook公司可算是SSD方案的早期拥护者了。他们多年以来一直是Fusion-io公司——PCIe SSD产品的先驱性开发厂商——的大客户,因此他们拥有着更为深层的SSD使用经验:每天数百万块驱动器保证其具备充足的考察对象。

遗憾的是,这项研究并没能针对多家供应商分别实施。相反,此次调查只能根据部署时间对SSD加以考察,这意味着部署时间最长的SSD属于第一代设备,而时间较短的则为第二代设备。

更重要的是,该研究团队对于故障作出了自己的定义,即由不可纠正的读取错误(简称URE)所导致的数据丢失。这类故障状况并不意味着SSD设备已经彻底损坏,但是那些曾经出现过一次URE状况的SSD往往很容易再次遭遇同样的问题。

与个人用户不同,Facebook公司更倾向于使用容量大的企业级SSD产品:其最新一代方案容量可达3.2 TB。这些可绝不是那些常见于笔记本设备之上的每GB要价35美分的SATA固态硬盘。相反,它们属于经过极限配置的PCIe SSD,在设计思路方面专门考虑到了高负载循环的需要。

除此之外,由于SSD无需依靠控制器纠正内部读取错误,因此本次研究当中所发现的错误只包含那些被报告至服务器的状况。服务器有时候能够重构SSD控制器所无法处理的数据,因此我们可以将其视为设备层级的报告、而非介质层级。

研究结果

好消息是,某些人们所担心的问题其实完全并没那么夸张。坏消息是,我们忽略掉的问题往往时有出现。

温度

SSD对于工作环境的温度非常敏感——比普通磁盘驱动器更加敏感。当温度过高时,SSD的性能往往会有所缩水。因此,如果某些服务器莫名其妙地出现性能下滑,请各位管理员检查温度这一指标。

第一代SSD产品往往会在温度上升时发生故障率增加的情况,这可能是因为其缺乏对应的抑制机制所导致。部分第二代SSD则能够在高温环境下显著降低故障发生机率——当然,也有一部分第二代SSD的故障率与上代方案基本一致。

总线供电

SSD显然是一只电老虎。PCIe v2 SSD的正常运行功率一般在8瓦到14.5瓦之间,如此巨大的浮动区间以及高额功耗可能远超大家的想象。研究团队发现,当功耗水平提升时,SSD设备的故障率也会随之增高。

写入疲劳

该研究团队发现,系统级别的写入活动与SSD故障紧密相关,这很可能是因为闪存写入操作需要消耗大量电能。因此对于像日志系统这样会带来高强度写入操作的应用程序来说,普通磁盘可能会是更好的选择。

SSD故障

SSD故障——也就是前面提到过的URE——相对比较常见:报告不可纠正错误的SSD占比由4.2%到34.1%不等。事实上,上一周曾经报告过错误的SSD当中,有99.8%会在下一周再次报告错误。

生命周期与故障

SSD故障表现与磁盘驱动器不同,后者的开箱故障率较高,但接下来几年的可靠性则比较理想,并最终随着时间的推移再度呈现出高故障率态势。SSD的早期URE状况往往是由于某些存储单元被识别为存在故障,其余正常产品拥有良好可靠性,直到随时间推移由于存储单元损耗而导致故障机率增长。

数据布局

磁盘驱动器的运作效果并不会受到数据布局的显著影响——除非其中涉及大量随机搜索操作。不过SSD的情况则完全不同。

稀疏的逻辑数据布局——也就是非连续数据——会导致较高的SSD故障率,当然数据密度过高亦会产生同样的效果。

存储空间占用

这部分内容在此次研究团队的论文当中占有重要比重。我们都知道SSD在空间占用方面与磁盘驱动器存在明显差异——也就是固态与机械间的区别——但具体差异如何却不可预测。

PC SSD往往呈现出较高的错误率,但用户——包括我个人在内——却往往注意不到。而且一旦出现数据问题——就像我上周在MacBook Air的500 GB SSD当中所遇到的——我们根本不知道问题为何产生。是SSD的毛病?HFS+文件系统的问题?恶意软件?还是宇宙射线的干扰?答案很难确定。

如果大家管理着配备有SSD的服务器,那么不妨从以上方面入手进行一番探寻。此次联合研究团队以循证医学的角度对SSD特性作出了调查,并提供了独一无二的SSD实证结论。

如果大家在使用SSD的过程中有所发现或者遇到了莫名其妙的状况,也请在评论栏当中分享您的经历与心得。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56