日前,前沿数控与腾讯云关于“静默错误”的一起千万级纠纷引发关注,虽然双方已经取得了和解,但是素来默默无闻的“静默错误”所导致的业务瘫痪让公有云和私有云的用户都心有余悸。
何谓“静默错误”?静默错误译自英文:Silent Data Corruption。磁盘在使用过程中,除了会发生硬件错误、固件BUG或者软件BUG、供电问题、介质损坏等可以正常补货和告警的常规故障之外,还会发生一些无法预警的错误,用户直到使用的时候才发现数据是错误的、损坏的,这就是静默错误。简而言之,就是用户在使用的时候发现写入数据和读取出来的不一致。
作为数据安全的致命隐患,静默错误一直以来是存储厂商秘而不宣的话题,因为频次较低也一直隐而不发。但随着大数据时代的到来,低概率将会因为硬盘基数的指数级增长而成为常态,静默错误将会越来越多地被遭遇,“前沿数控”不是第一个,更不会是最后一个。
公有云由于数据量庞大,所以数据危机频发,私有云的情况会有不同吗?
作为私有云建设的新型方式,超融合架构利用分布式存储技术将标准X86服务器的本地磁盘组织成一个大规模存储资源池,同时采用服务器虚拟化技术对上层应用提供虚拟机服务,实现了计算、存储、网络等资源的统一管理和调度,可以为数据中心带来最优的效率、灵活性、规模、成本和数据保护。与传统的服务器加集中式存储的架构相比,超融合架构因其高可用、高扩展、易于管理的特性成为时下的热点。
超融合的明显优势吸引了大批IT用户从观望者加入到使用者的行列中来,风头一时无两。然而,伴随着大量的用户实践,超融合架构的弊端逐渐显现,数据丢失与业务中断的事故比比皆是,这与“静默错误”不无关系。
首先,“静默错误”的概率不低。硬盘的误码率是“静默错误”产生的原因之一,根据官方数据,企业级硬盘每120Tb就会有一位静默错误的概率;另一方面,磁盘次记录磨损、磁盘幻象写、磁盘指向错误、DMA校验错误等等,都有可能引发静默错误,主板老化、内存条松动、连接线和卡的松动等都会导致读出的数据不是当初写入的数据。
其次,一般的超融合架构所采用的分布式存储只有在硬盘完全损坏的时候才能识别到故障进行补救,而面对静默错误,系统无法察觉更无法修复,只能任由错误一点点深化,当错误延伸到元数据领域,就会造成不可预估的安全故障。
那么面对静默错误,所有的超融合只能束手无策吗?关键业务的存储只能舍弃超融合架构而转向传统磁盘阵列吗?
来自南京的存储专家——道熵给出了不同的答案。
以闪存优化磁盘阵列起家的道熵认为,跟刚踏入超融合领域的新秀品牌相比,商业磁盘阵列厂商对于静默错误有着更为深刻的认识,并在几十年的磁盘阵列发展史中与静默错误不断对抗,而“在线数据完整性校验”技术被认为是唯一能够有效应对静默错误的关键技术。
道熵的“在线数据完整性校验”技术确保每个数据块都有相对应的256位数据校验码,数据在读出时,必须与校验码匹配后才交付前端应用,否则,启动数据自修复机制,利用软Raid技术进行数据恢复,确保前端应用数据安全。
在道熵交付的磁盘阵列产品中,“在线数据完整性校验”技术保障了包括江苏省大的VDI项目、中石油勘探系统、市级档案局存储系统、多所智慧校园项目的数据安全。这一次,道熵将该技术完整地应用到了其超融合系列产品中,这在超融合领域尚属首例。
能够做到行业首创,这离不开道熵在存储磁盘阵列领域的技术积淀,也与道熵开发团队在超融合产品架构层面的规划能力息息相关。
道熵的铁力士超融合2.0的大亮点在于其分布式存储的进化,摒弃跨节点多副本模式,采用节点内RAID与节点间副本相结合的双重数据保护机制,通过存储虚拟化技术实现节点内存储资源池化管理、在线数据完整性校验和数据自修复功能,保证及时感知硬件故障并实现数据自我修护,在超融合场景的数据修复中,铁力士超融合2.0优先采用节点内Raid进行修复,也可以采用节点间副本进行。因此,在数据安全保护、IO性能和业务连续性保障三个方面,铁力士超融合2.0相较超融合1.0都表现出质的飞跃。
信息社会,数据是企业的命脉,核心业务的数据安全是企业管理的头等大事。在超融合架构为数据中心的建设提供了极大的便利,优越的性价比优势的同时,“静默错误”的横空出世为企业的选择敲响了警钟,选择恰当的数据平台搭建方案,认准“在线数据完整性校验”技术保障,从源头上杜绝静默错误的发生,真正实现数据安全“万无一失”。
【中国IDC圈原创 未经授权禁止转载】
相关阅读:
Android API breaking漏洞曝光:可泄露设备相关数据