存储系统作为如今大数据云计算时代的根基,它的稳定才是支撑起如此海量数据的根本。所以各大相关行业对于这部分非常重视,所以在此针对存储系统的故障处置简单提出自己学习总结的一些思路。

iyQ3Ub7

首先在处理存储系统发生的可能故障前必须对于整个存储系统的架构以及原理有一个清楚的了解。普遍来说存储系统由主机、交换机及存储设备组成。它们之间可以是直连或者是IP网络或FC网络的方式进行连接。整个系统的稳定性跟每个组成部分都息息相关。

其次了解故障的分类,故障分类大致分为硬件故障、配置故障或者license类问题,先外部后内部,先处理高级警告后处理低级警告,先共性后个性。

面对故障的发生,第一步永远都是先进行必要的信息收集,对于整个存储系统的基本信息,故障信息、存储设备信息以及组网、主机服务器信息要有了解。这些部分可以直接管理到主机、交换机或存储设备中进行收集,如今厂商也都有专门研发维护工具来帮助管理者做这些事情。收集清楚这些信息之后,才能对整个存储系统有一个普遍清晰的认知。至少对如今的故障可能发生原因有一个了解,然后再细化到每个组成部分上排查可能问题。

一、主机层

在主机层面大多需要检查的是操作系统版本,相应的HBA卡是否达到合适的标准,如速率、IOPS及带宽等。其次是在主机上安装的多路径软件,查看一下与存储设备连接的物理路径的状态以及存储LUN等信息。

二、网络层

网络层次可能发生的问题大多是连通性问题,由于链路故障导致的丢包或者误码率上升等现象,此现象可以在交换机上观察端口的信息,观察误码率是否在持续增长,如有,则可能存在链路部件异常或接触不良的现象。其次可能是端口速率或带宽未达到标准,查看端口配置及协商状况,这些都有可能导致故障或者性能问题。

三、存储层

存储设备可以在导出相关告警,事件或者运行数据、系统日志和硬盘日志来进一步分析可能发生故障的原因,到底是存储控制器问题还是底层的硬盘问题都需要一一排查。在底层存储方面主要考虑存储模块的配置,指示灯状态等信息,从指示灯状态我们可以分析出是否存在硬件故障等,其次在配置方面:RAID级别、分条深度、LUN读写策略、cache策略,LUN归属、硬盘类型等是否符合业务的特点以及不符合时可能导致的问题。都是需要我们在故障排查处理时需要考虑的。

总之面对存储系统的故障,一定要具备一个清晰的思路,不要盲目的去做。盲目的去做可能会恶化故障,从而使得排查难度进一步加大。

相关阅读:

全球18家顶级企业数据存储供应商

2018年数据存储市场概览

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-11-05 13:07:53
国际资讯 Facebook到2020年其所有数据中心和办公室都将采用可再生能源
Facebook计划在美国阿拉巴马州亨茨维尔市建设一个数据中心,该数据中心的电力将来自于田纳西州和阿拉巴马州最大的太阳能发电场。目前,相关条款和时间表尚未披露。 <详情>
2018-11-05 11:31:00
2018-11-05 10:34:00
机房建设 数据中心设计:云计算提供商VS数据中心房地产提供商?
如今,日益普及的云计算应用影响了数据中心从宏观层面到微观层面的设计。在微观层面,许多环境的趋势是不仅仅使用CPU架构,还包括GPU、神经网络加速器等技术。那么就会提出 <详情>
2018-11-05 09:57:10
国际资讯 印度政府加强数据监管 万事达卡计划在印度设立交易存储数据中心
全球信用卡支付巨头万事达卡公司(Mastercard)计划在印度设立交易存储数据中心,该公司周二表示,它开始遵守美国公司未能成功游说的监管条例。 <详情>
2018-11-05 09:22:13
国际资讯 Amazon第二总部终于选定了!
去年九月初亚马逊官方宣布,将在整个北美地区,物色适宜城市,投资60亿美元,修建其在北美的第二总部,并将给所在城市,带来5万个就业岗位!全北美236个城市和地区,都踊跃 <详情>