如今,数据中心越来越趋于自动化,并已成为数据中心良好运营的强大力量。以下列出在数据中心监控自动化中经常出现的两个主要问题。

问题1:房间里的大象

“房间里的大象”是指人们私密生活和公共生活中对于某些显而易见的事实,集体保持沉默的社会现象。人们在进一步深入自动化之前,无论是自动发现,报告交付或警报触发操作,必须做出一个关键点:在某些方面,它被称为DPR周期。DPR代表检测,预防和响应。

警报是工作人员在发生错误时捕获错误的方式,但是由数据中心工作人员来决定它们发生的原因,并找到一种防止错误再次发生的方法。当构建一个解决方案以自动响应警报并进行修复时,作为负责任的数据中心专业人员,还应该致力于分析情况的艰苦工作,以找到模式和根本原因。然后需要解决根本原因,并创建检查,以便知道是否再次出现问题。

对警报的自动响应保持企业的业务在所有的时间运行,并帮助确保知道你需要的时间,工作人员必须能够看到发生了什么,做的工作出来为什么会发生,所以可以防止它在将来发生。这样才不会出现“房间里的大象”问题。

问题2:内心恐惧

许多数据中心专业人员在第一次提出自动响应警报的想法时感到担心。而具有一个真正有活力的大脑的人会对这些警报进行仔细思考,然后谨慎采取行动。这种想法就像站在“自动化”海洋的边缘。有点令人望而生畏。但你必须相信不会被海水淹死,并且有能力一步步地尝试。这并不是一个全有或全无的命题,其风险也将会从零到全部。

与任何IT工作一样,有实施计划有时比实施(或在这种情况下是自动化)本身更重要。所以可以再谈谈这个实施计划:

首先识别测试机器。无论是为这些目的而部署的实验室设备还是那些不太重要的志愿者,请设置警报,以便触发这些机器。

学习使用反向阈值。虽然企业的最终警报将检查CPU的工作负载量大于90%,工作人员可能希望避免反复测试。而CPU的工作负载量小于90%将触发更多的可靠性,至少工作人员希望如此。

查找复位选项。与上面密切相关,了解数据中心监控工具如何重置警报,以便再次触发。也许很可能会很多使用那个功能。

详细情况。数据中心工作人员想要了解发生什么和什么时候可能发生。如果数据中心的工具支持自己的日志记录,请将其打开。在自动化中大量插入“我现在开始XYZ步骤”消息。虽然很乏味,但你会很高兴所做到的事情。

自己处理警报。如果你认为会通过发送这些警报到服务器团队进行测试,事实上,你并不会把它发送到任何团队,而会认为自己可以处理这些警报。

你真的不需要通过电子邮件触发那些警报。所有这一切都是在基础设施上造成额外的延迟和压力,以及如果你的警报同时启动多个消息,可能会产生其他问题,会将消息发送到本地日志文件和显示屏。

分享警报提醒。现在,你可以通过对话与小组的其他人分享警报提醒。

采用对话。这个过程将涉及与其他人交谈。设置自动化是协作的,因为你和那些每天都在一起工作的人都应该同意从基本功能到消息格式的一切。

将相位器设置为满。一旦自动化在企业的测试系统上工作,计划通过分阶段的方法实施。使用相同的机制,你用来限制几个警报,你向网络扩展,也许10-20个系统。并且你再次测试观察结果。然后你扩大到50个左右。确保你和收件人都很满意所看到的结果。记住,在这一点上,团队正在接收常规警报,但你仍然应该看到之前提到的详细消息。你应该与团队进行审查,以确保你认为发生的是真正发生的事情。

遵循这些指南,任何自动响应应该有很高的成功机率,或者至少你会避免陷入糟糕的自动化,不会产生太多的损害。采用自动化的一个很好的经验法则是用最小的努力获得大的回报。无论你现在看到的是什么基于系统的事件,这可能是你可以获得的大影响。另一个找到自动化想法的办法就是聆听团队的想法,考虑是否有哪些用户投诉是由系统故障驱动的。如果是这样,它可能是解决自动化出现问题的机会。最后,不要计划得太远。你可能现在感到担心在获得一两个成功之后,你会发现团队正在寻求你的建议,以你的方式获得帮助。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2025-04-25 11:11:02
国内资讯 万国数据全国首单“数据中心持有型不动产ABS”在上交所 成功挂牌上市
本次发行是贯彻落实中央‘金融五篇大文章’要求的生动实践,通过‘持有型不动产ABS+可持续挂钩’这一创新,实现了资金用于金融数据中心核心资产收购和运营。 <详情>
2025-04-01 18:19:39
国内资讯 普洛斯中国首支数据中心基金完成募集,投资规模约26亿人民币
普洛斯推出首支数据中心收益基金,提供稳定收益和长期增长并重的投资产品,满足投资人需求。 <详情>
2025-03-26 16:35:02
国内资讯 中国移动成渝(重庆)江南数据中心正式投产
3月20日,中国移动成渝(重庆)江南数据中心(以下简称“江南数据中心”)投产暨战略合作协议签约仪式在南岸区、重庆经开区举行。 <详情>
All in AI 亚马逊云科技助力安克创新以AI赋能业务
2025-07-01 09:31:00
供需牵引 生态共筑——2025中国智算产业生态发展大会成功举办
2025-06-30 12:46:35
亚马逊云科技:Agentic AI处于爆发前夜 要做企业AI创新的首选
2025-06-27 17:35:02
CIDC探路汕头跨境数字枢纽:共绘跨境数据流通与算力协同新蓝图
2025-06-24 14:17:46
第一线陈姵妏:专有算网即服务 破解企业AI部署“升效-降本”难题
2025-06-24 14:13:07
阿喀琉斯之踵?!阿里云核心域名遭劫持
2025-06-24 14:08:46
破局生态壁垒,共筑算力未来——2025中国智算产业生态发展大会即将启幕
2025-06-24 13:57:58
红帽AI来了!让开源成为企业AI最优解
2025-06-24 10:49:47
完整议程揭秘 五大参会理由!2025中国智算产业生态发展大会即将启幕
2025-06-24 09:27:59
“数”启新程,“智”赢未来:和林格尔新区绿色算力与人工智能高质量发展之路
2025-06-23 17:32:10
瑞银实地探访星际之门:未来的希望还是空置的野心?
2025-06-23 16:48:30
投资45亿、3000P,灵武智慧算力科创谷项目预计于6月底完成主体结构封顶
2025-06-23 16:45:55
《绿色数据中心评价》落地 246家绿色数据中心背后价值何在?
2025-06-23 16:44:29
智擎破局:中电电气重塑绿色智能数据中心新范式
2025-06-23 16:41:53
统一算力“度量衡” 工信部发布《算力互联互通行动计划》
2025-06-23 16:39:31