随着数据中心规模的扩张,用于存储数据的硬盘数量不断增长。云计算平台中要使用数以百万级的硬盘作为数据存储载体,高效、可靠又稳定的硬盘存储系统对于云服务的重要性不言而喻。
正因为硬盘是云计算系统中最为重要的存储载体,硬盘的健康管理是云服务稳健可靠的根本。为此,希捷与腾讯云服务器运营团队在2018年开始在腾讯云的数据中心中部署了FARM技术,从而对云平台和数据中心的每一块硬盘进行实时的“体检”与健康管理。
为什么FARM能够做到硬盘的健康状况预知?这项技术又是怎样被应用的?今天我们就来系统地为大家追根溯源,看看FARM究竟是一项什么神秘的黑科技?
FARM是什么?
一看见FARM这个词,大家很容易联想到风吹草低见牛羊。但真相是,FARM的全称为Field Accessibility Reliability Metrics,最早于2018年OCP峰会上提出,它的字面意思是 “终端客户可方便获取的硬盘可靠性指标”,是一种让用户以极其简单的方法获取硬盘全方面参数的日志。FARM的目的在于让云计算用户以此建立基于机器学习的健康监控或者预测模型,以及实时直观地获取数据中心中每一块硬盘的健康状况。
在目前的硬盘运维实践中,硬盘的数据采集主要基于SMART体系(Self-Monitoring Analysis and Reporting Technology,即自动检测分析及报告技术)。它能分析并预警硬盘可能发生的问题。 SMART体系自投入使用已有25年时间,可涵盖10多项的参数。
FARM是对SMART体系的重大改良。FARM本身获取方便,参数覆盖广,可以说是超级加强版的SMART。FARM的120多项参数包含了硬盘更加底层的传感器和磁头级别的相关参数,以及飞行高度、工作负载、环境等使用状况的参数,并且已经在多个希捷产品上实施,给硬盘做详细的“全身体检”。
FARM的结构简单、数据量小,在抓取参数时,不会影响到系统本身在运转的业务。客户可以通过非常细的粒度按需抓取数据,以自己所需的频次获取硬盘健康日志及大量数据,并通过大数据建模,进行监控和分析。
通过定期的FARM数据抓取, 希捷与腾讯云基于云业务模型,利用定制机器学习算法,将硬盘健康度进行打分评估,提前识别高风险硬盘,尽快采取措施,做业务迁移、风险规划等,避免极低概率下硬盘批量失效而导致业务中断和数据丢失。
FARM都记录些什么?
让我们举些例子↓:
硬盘信息:SN序列号、WWN全球唯一名字、容量等基本信息,以及磁头数量、马达等零部件的运行时间、最近一次的硬盘状态等。
读写数据量:除读写LBA(逻辑区块地址)数量之外,还包含按类别统计的读写命令数量(总数,随机命令数,非读写命令数),以及最近几个小时内在磁碟不同区域的读写命令数量等。
错误统计:除记录SMART已经包含的错误处理数据之外,还包含固件内部异常事件、读写重试、机构部件重试等。同时对于不可恢复的错误,按照读写分别统计。
环境参数:记录外界环境相关参数,除温度之外,还包含湿度、5V/12V输入电压、马达电压等。
可靠性参数:包含周期性及空闲时的后台评估、IDD(In Drive Diagnostic)、偏心率、以及磁头级别的底层参数——误码率、信道补偿、寻道错误率、磁阻、飞行高度等。
未雨绸缪,助力客户业务发展
腾讯云是国内首家部署FARM的企业。通过此项目,希捷联合腾讯云对其数据中心的硬盘运行数据进行实时检测,应用大数据建模分析存在失效风险的硬盘。
作为国内领先的云服务提供商,腾讯云对系统的稳定性和可靠性要求严苛。腾讯云与希捷合作,通过FARM定期对硬盘的健康数据抓取,实时监控硬盘的健康状态。一旦发现有任何异常,便会及时采取措施,提醒客户重新设计工作负载,未雨绸缪,保护关键业务的延续性。
伴随腾讯云业务规模的快速增长,以及双方合作的深入,双方将继续保持紧密的技术沟通,不断完善相关技术,为更多用户打造更为稳定和可靠的数据存储方案。