每一天,存储业界销售的SSD产品总量高达数百万块,而其给人留下的最大印象就是能够显著加快系统引导与应用启动速度。不过其对于全天候不停转的数据中心来说意味着什么?管理员们又需要留心SSD所带来的哪些常见问题?

考虑到上述疑问,卡耐基-梅隆大学的Justin Meza及OnurNutlu与Facebook公司的Qiang Wu及Sanjeev Kumar共同开展了一项“闪存记忆体现场故障状况大型研究”,旨在了解SSD在日常运作中的实际表现。

基本方法

Facebook公司可算是SSD方案的早期拥护者了。他们多年以来一直是Fusion-io公司——PCIe SSD产品的先驱性开发厂商——的最大客户,因此他们拥有着更为深层的SSD使用经验:每天数百万块驱动器保证其具备充足的考察对象。

遗憾的是,这项研究并没能针对多家供应商分别实施。相反,此次调查只能根据部署时间对SSD加以考察,这意味着部署时间最长的SSD属于第一代设备,而时间较短的则为第二代设备。

更重要的是,该研究团队对于故障作出了自己的定义,即由不可纠正的读取错误(简称URE)所导致的数据丢失。这类故障状况并不意味着SSD设备已经彻底损坏,但是那些曾经出现过一次URE状况的SSD往往很容易再次遭遇同样的问题。

与个人用户不同,Facebook公司更倾向于使用容量最大的企业级SSD产品:其最新一代方案容量可达3.2 TB。这些可绝不是那些常见于笔记本设备之上的每GB要价35美分的SATA固态硬盘。相反,它们属于经过极限配置的PCIe SSD,在设计思路方面专门考虑到了高负载循环的需要。

除此之外,由于SSD无需依靠控制器纠正内部读取错误,因此本次研究当中所发现的错误只包含那些被报告至服务器的状况。服务器有时候能够重构SSD控制器所无法处理的数据,因此我们可以将其视为设备层级的报告、而非介质层级。

研究结果

好消息是,某些人们所担心的问题其实完全并没那么夸张。坏消息是,我们忽略掉的问题往往时有出现。

温度

SSD对于工作环境的温度非常敏感——比普通磁盘驱动器更加敏感。当温度过高时,SSD的性能往往会有所缩水。因此,如果某些服务器莫名其妙地出现性能下滑,请各位管理员检查温度这一指标。

第一代SSD产品往往会在温度上升时发生故障率增加的情况,这可能是因为其缺乏对应的抑制机制所导致。部分第二代SSD则能够在高温环境下显著降低故障发生机率——当然,也有一部分第二代SSD的故障率与上代方案基本一致。

总线供电

SSD显然是一只电老虎。PCIe v2 SSD的正常运行功率一般在8瓦到14.5瓦之间,如此巨大的浮动区间以及高额功耗可能远超大家的想象。研究团队发现,当功耗水平提升时,SSD设备的故障率也会随之增高。

写入疲劳

该研究团队发现,系统级别的写入活动与SSD故障紧密相关,这很可能是因为闪存写入操作需要消耗大量电能。因此对于像日志系统这样会带来高强度写入操作的应用程序来说,普通磁盘可能会是更好的选择。

SSD故障

SSD故障——也就是前面提到过的URE——相对比较常见:报告不可纠正错误的SSD占比由4.2%到34.1%不等。事实上,上一周曾经报告过错误的SSD当中,有99.8%会在下一周再次报告错误。

生命周期与故障

SSD故障表现与磁盘驱动器不同,后者的开箱故障率较高,但接下来几年的可靠性则比较理想,并最终随着时间的推移再度呈现出高故障率态势。SSD的早期URE状况往往是由于某些存储单元被识别为存在故障,其余正常产品拥有良好可靠性,直到随时间推移由于存储单元损耗而导致故障机率增长。

数据布局

磁盘驱动器的运作效果并不会受到数据布局的显著影响——除非其中涉及大量随机搜索操作。不过SSD的情况则完全不同。

稀疏的逻辑数据布局——也就是非连续数据——会导致较高的SSD故障率,当然数据密度过高亦会产生同样的效果。

存储空间占用

这部分内容在此次研究团队的论文当中占有重要比重。我们都知道SSD在空间占用方面与磁盘驱动器存在明显差异——也就是固态与机械间的区别——但具体差异如何却不可预测。

PC SSD往往呈现出较高的错误率,但用户——包括我个人在内——却往往注意不到。而且一旦出现数据问题——就像我上周在MacBook Air的500 GB SSD当中所遇到的——我们根本不知道问题为何产生。是SSD的毛病?HFS+文件系统的问题?恶意软件?还是宇宙射线的干扰?答案很难确定。

如果大家管理着配备有SSD的服务器,那么不妨从以上方面入手进行一番探寻。此次联合研究团队以循证医学的角度对SSD特性作出了调查,并提供了独一无二的SSD实证结论。

如果大家在使用SSD的过程中有所发现或者遇到了莫名其妙的状况,也请在评论栏当中分享您的经历与心得。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-31 13:38:58
国际资讯 微软加大可再生能源投资 亚利桑那州新数据中心将主要使用太阳能
为了减少数据中心的碳足迹,微软正在加大对太阳能的投资。2023 年的时候,其数据中心有望使用 70% 的可再生能源。亚利桑那数据中心的可持续发展项目,一直受到很多人的关注 <详情>
2019-07-31 09:41:00
国际资讯 英特尔公布Q2财报:数据中心压力陡增,物联网业务实现较大增长
日前,英特尔公布了 2019 年第二季度的盈利报告,实现营收 165 亿美元,同比下降3%;净利润为 42 亿美元,同比下降 17%。报告称,下降主要出现在数据中心业务,而在客户计 <详情>
2019-07-30 15:08:00
国内资讯 投资6亿美元 谷歌在德克萨斯州建第二个数据中心
谷歌在德克萨斯投资的第一个数据中心获得批准,该数据中心目前已开始施工。 <详情>
2019-07-30 13:12:04
机房建设 数据中心机器学习如何优化运营
机器学习和人工智能是当今IT专业人员的热门话题,而在企业的数据中心,它们拥有真正的前景。 <详情>
2019-07-29 20:36:30
UPS电力 发电机组和UPS电源之间的配合问题
近年大型的数据中心的建设得到迅猛增长,将应用越来越多的大功率UPS,由于要控制UPS所用蓄电池数量,大功率UPS的后备时间基本上都是15-30分钟,这样就需要匹配发电机组,为 <详情>