随着数据中心规模的扩张,用于存储数据的硬盘数量不断增长。云计算平台中要使用数以百万级的硬盘作为数据存储载体,高效、可靠又稳定的硬盘存储系统对于云服务的重要性不言而喻。

1

正因为硬盘是云计算系统中最为重要的存储载体,硬盘的健康管理是云服务稳健可靠的根本。为此,希捷与腾讯云服务器运营团队在2018年开始在腾讯云的数据中心中部署了FARM技术,从而对云平台和数据中心的每一块硬盘进行实时的“体检”与健康管理。

为什么FARM能够做到硬盘的健康状况预知?这项技术又是怎样被应用的?今天我们就来系统地为大家追根溯源,看看FARM究竟是一项什么神秘的黑科技?

FARM是什么?

一看见FARM这个词,大家很容易联想到风吹草低见牛羊。但真相是,FARM的全称为Field Accessibility Reliability Metrics,最早于2018年OCP峰会上提出,它的字面意思是 “终端客户可方便获取的硬盘可靠性指标”,是一种让用户以极其简单的方法获取硬盘全方面参数的日志。FARM的目的在于让云计算用户以此建立基于机器学习的健康监控或者预测模型,以及实时直观地获取数据中心中每一块硬盘的健康状况。

在目前的硬盘运维实践中,硬盘的数据采集主要基于SMART体系(Self-Monitoring Analysis and Reporting Technology,即自动检测分析及报告技术)。它能分析并预警硬盘可能发生的问题。 SMART体系自投入使用已有25年时间,可涵盖10多项的参数。

FARM是对SMART体系的重大改良。FARM本身获取方便,参数覆盖广,可以说是超级加强版的SMART。FARM的120多项参数包含了硬盘更加底层的传感器和磁头级别的相关参数,以及飞行高度、工作负载、环境等使用状况的参数,并且已经在多个希捷产品上实施,给硬盘做详细的“全身体检”。

2

FARM的结构简单、数据量小,在抓取参数时,不会影响到系统本身在运转的业务。客户可以通过非常细的粒度按需抓取数据,以自己所需的频次获取硬盘健康日志及大量数据,并通过大数据建模,进行监控和分析。

3

通过定期的FARM数据抓取, 希捷与腾讯云基于云业务模型,利用定制机器学习算法,将硬盘健康度进行打分评估,提前识别高风险硬盘,尽快采取措施,做业务迁移、风险规划等,避免极低概率下硬盘批量失效而导致业务中断和数据丢失。

4

FARM都记录些什么?

让我们举些例子↓:

硬盘信息:SN序列号、WWN全球唯一名字、容量等基本信息,以及磁头数量、马达等零部件的运行时间、最近一次的硬盘状态等。

读写数据量:除读写LBA(逻辑区块地址)数量之外,还包含按类别统计的读写命令数量(总数,随机命令数,非读写命令数),以及最近几个小时内在磁碟不同区域的读写命令数量等。

错误统计:除记录SMART已经包含的错误处理数据之外,还包含固件内部异常事件、读写重试、机构部件重试等。同时对于不可恢复的错误,按照读写分别统计。

环境参数:记录外界环境相关参数,除温度之外,还包含湿度、5V/12V输入电压、马达电压等。

可靠性参数:包含周期性及空闲时的后台评估、IDD(In Drive Diagnostic)、偏心率、以及磁头级别的底层参数——误码率、信道补偿、寻道错误率、磁阻、飞行高度等。

5

未雨绸缪,助力客户业务发展

腾讯云是国内首家部署FARM的企业。通过此项目,希捷联合腾讯云对其数据中心的硬盘运行数据进行实时检测,应用大数据建模分析存在失效风险的硬盘。

作为国内领先的云服务提供商,腾讯云对系统的稳定性和可靠性要求严苛。腾讯云与希捷合作,通过FARM定期对硬盘的健康数据抓取,实时监控硬盘的健康状态。一旦发现有任何异常,便会及时采取措施,提醒客户重新设计工作负载,未雨绸缪,保护关键业务的延续性。

伴随腾讯云业务规模的快速增长,以及双方合作的深入,双方将继续保持紧密的技术沟通,不断完善相关技术,为更多用户打造更为稳定和可靠的数据存储方案。

6

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2025-02-11 11:07:34
国际资讯 腾讯云宣布在沙特阿拉伯建设首个中东数据中心
利雅得时间2月9日,在沙特一年一度的科技盛会 LEAP2025 上,腾讯云正式宣布将在沙特阿拉伯建设首个中东数据中心。此次数据中心的建设标志着腾讯云在国际化发展迈入新阶段。 <详情>
2023-12-26 18:11:56
市场情报 腾讯云与数据产业集团达成合作协议,共建数据要素产业生态
12月24日,中国“数据要素×”生态大会现场,腾讯云与中电数据产业有限公司(简称“数据产业集团”)签署战略合作协议 <详情>
2023-06-08 16:29:46
2023-05-27 22:51:21
市场情报 腾讯云与炫云达成合作,助力炫云进一步提升云计算资源
5月23日,腾讯云与北京炫我科技有限公司(以下简称“炫云”)正式签署战略合作协议,双方将在算力提升、技术支持等多个方向进行深度合作,共同推动影视动画行业高质量发展。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
190亿算力租赁大单;金融机构采购飞腾/鲲鹏/海光;运营商174亿「押注」Token工厂;三江源EPC「废标」……|算力情报局Vol.07
2026-05-18 09:30:00
总投资约15亿元、规划3000P,中数博通(法库)智算中心项目奠基
2026-05-15 14:12:01
NHN在韩国推出7656张NVIDIA B200 GPU集群
2026-05-15 11:06:09
世纪互联引入新战略投资者,买方至多购入38.1%股份
2026-05-15 11:04:05
当“维也纳整流”遇到“双向三电平整流”|算电协同时代,该如何选择?
2026-05-15 11:02:23
嘉宾征集!液冷、供配电、模块化交付——从“供应商”到“行业话语权参与者”|DIFGC 2026 曼谷
2026-05-15 10:58:00
当Token成为新生产力,AI利润中心正在从基础设施转向大模型公司
2026-05-15 10:10:01
Equinix投资1.9亿美元在马来西亚建设第四座数据中心
2026-05-14 11:50:14
未来赚钱的不是算法公司,是Token工厂
2026-05-14 11:15:00
开工、交付持续攀升 ——算力中心建设月报(2026年4月)
2026-05-14 11:08:49
微软考虑推迟或放弃2030年100%可再生能源匹配目标
2026-05-13 15:24:36
日本横滨港测试100%可再生能源供电海上数据中心
2026-05-13 12:23:01
总投资30亿元,世纪互联乌兰察布零碳智算中心基地三期项目开工
2026-05-13 11:19:28
亚马逊投资 700MW 无碳能源项目,支持未来数据中心运营
2026-05-13 10:21:13
高盛拆解 AI"万亿美元军备竞赛":真正决定资本洪流规模的,不只是需求
2026-05-12 15:43:00