武艺精绝者,能听音辨位,医术高明者,可闻声辨症,这都是匠人技艺高超的体现。而现在,关于“听”这项技能,AI又会给我们带来什么惊喜? 仅需10秒听音,就能精准判断服务器风扇故障,这是浪潮信息工程师们秉持匠心,通过AI技术“闻风听诊”,精益求精所带来的前沿创新:
浪潮信息最新发布的智能听音诊断技术,可以让服务器风扇的故障预警准确率达到95%,将这一会引发服务器故障和数据中心事故的安全隐患降到最低。
风扇之殇牵引服务器之痛
众所周知,“发烧”是服务器的致命伤。在服务器系统中,良好的散热是保障系统以高性能稳定可靠运行的基础,风扇在其中所起的作用不言而喻。
然而,风扇虽是服务器降温的法宝,其本身却并非“百毒不侵”。风扇的故障,可能来自于轴承变形,部件老化、电路板短路故障,灰尘与污垢的积压,润滑油的不足,严重时甚至会引起数据中心的火灾。
散热风扇虽然仅有1%的可能发生故障,但其一旦发生故障,将影响系统性能和可靠性,且风扇故障的维修时间长,对数据中心业务运行影响很大。
有什么办法,可以提前预测风扇的“亚健康”问题,方便为服务器“治未病”?浪潮信息的工程师们为自己立下了研发的目标,并且开始反向求索去解决需求痛点。
听音预警为服务器“治未病”
地震在发生前会产生1-10Hz的次声波,能辅助人们提前预测灾害的发生,可见声音传递的信息如果能被正确解读,能够给人类带来巨大的价值。而浪潮信息研发工程师发现,服务器风扇作为一种旋转机械,一方面要抑制其产生的气动噪声对性能、可靠性的影响,另一方面,也可以利用其中所携带的风扇性能状态的信息,剖析风扇健康状态。
浪潮信息工程师采用中科院声学所语音与智能信息处理实验室的智能声学故障检测技术,利用机箱内噪声的特征信息,建立了业界首个基于声纹特征的服务器风扇故障智能预警系统。该系统可以实时分辨几乎所有的风扇故障噪声,实现“听音诊断”。
将风扇故障智能诊断模型部署在服务器BMC芯片中,进一步扩展了服务器的智能运维能力。BMC通过内部的麦克风阵列、音频处理芯片,采集系统的多维噪音,并进行声学信号处理、分析、诊断,仅需10秒钟“听音”,就可准确预警故障状态,精准度达95%,提前从根源上彻底解决服务器风险问题,保证数据中心运行安全。
“知音”难觅AI助力开先河
基于声学探测的服务器风扇智能听音诊断系统听起来很简单,但从无到有,从有到精,对于听音诊断的AI学习来说,远不止“读书百遍,其义自见”这么容易。
工程师们首先在服务器主板上集成麦克风阵列采集风扇的噪音,完成采集到的音频信号的降噪、同步、处理,然后将数据传输至部署了智能诊断模型的BMC中,在BMC中实现风扇故障的在线诊断功能,包括对风扇故障音的特征匹配与分析,精准识别潜在的风扇故障音、定位风扇故障位置、发出警报,并记入风扇故障日志等,实现对叶片偏心、轴承磨损、绕组性能退化、润滑油不足或耗干、IC元件电阻变化等等故障原因进行精准定位。
从零起步的难点在于,此前业界没有任何参考,信号特征提取又特别复杂。数据中心有上万台的风扇,分别分布在不同机柜中。传统的声音分析方法中,背景噪音嘈杂,声纹特征很容易被混淆,难以精准识别。
为了得到识别精度高、泛化能力强的诊断模型,浪潮工程师们构建了业界首个针对服务器风扇故障音的人工智能训练数据集,时长足足达200小时,涵盖了几乎所有的风扇故障类型,并对声纹信息抽取40维MFCC特征,建立了多级深度学习神经网络。
经过训练的风扇故障音诊断模型能够区分特征相似的声纹数据,并缓解了正负样本分布不均衡的问题,对各种类型、不同位置的故障风扇洞察秋毫,有见微知著的效果。
目前,这套AI预测模型已经部署在浪潮信息服务器中,由BMC统筹管理风扇、麦克风阵列、DSP、指示灯等组成的听音诊断系统只需十秒听音,叶片偏心或破损、轴承磨损、润滑油不足、积灰等种种故障均可精准定位预警,预警精准度达95%,彻底解决服务器的运行风险。
结语:
若能澄心净耳听,万籁俱寂亦是韵。风过留痕,雁过留声,从声音的碎片中去捕捉风扇的暗伤,从偶尔的音变中去发现必然的质变,知音莫过于此。智能只是手段,工程师们的如磐匠心才是创新的根基,精益求精,千锤百炼,只为一台好的服务器。