反思云服务器宕机背后：性能预警是软肋_IDC安全监控

如今的云服务领域，IaaS基础设施服务占据了90%的份额，在政府的支持以及媒体的推波助澜下，正在有越来越多的企业选择使用公有云服务。基础设施云服务让企业无需再单独购买服务器等硬件资源，直接在所购买的云平台部署应用环境，省去了大量的IT基础投资，也可以随时获取更弹性的存储扩展功能，这成为企业竞相拥抱云服务的主要原因。但仍有一部分用户拒绝购买云服务，除了对数据安全的担忧之外，云服务的稳定性和可用性也是困扰这些用户的重要因素。

搜索一下百度，以各大云服务商和“宕机”为关键词，你会检索出大量的链接，内容大都是用户对购买过相关云服务后遇到的宕机现象叫苦不迭，发誓永不再购买这个厂家的云服务。行业人士感慨，当用户体验成为互联网企业留住客户的不二法宝，时常发生的云服务器宕机事件，已经严重影响了用户对云服务厂商的信任。

反思云服务器宕机背后性能预警是软肋

实际上，自从有了云服务，云服务商宕机事件就从来没有停止过。2014年8月，全球发生了大范围的宕机事件，为这些云服务商带来了巨大损失：AWS先后发生两次宕机导致其损失700万美元，苹果iCloud宕机致使300万用户受到影响，谷歌全面宕机，5分钟全球流量下降40%……同年年底，腾讯云发生了六分钟的宕机事件，导致用户访问腾讯云网站时响应速度变慢、图片打不开，无法登陆管理中心的控制台，更使得媒体纷纷感慨原来“永不掉线”只是服务商的一种追求。

云智慧CEO殷晋表示，尽管当前的云计算技术越来越可靠，但是性能问题是一个永远也不会消逝的东西，因为你根本无法保证什么时候网络状况会不好，也无法预料在遇到数据大并发时，系统消耗程度会按照原来的计划走。他指出，保证云服务的稳定性，不仅要在购买合适的服务器产品上精挑细选，并保证机房良好的生存环境，还应该高度重视系统性能监控的智能化，改变人为操作带来的效率低下和预警机制的缺乏。

相关数据显示，正常的服务器工作状态是CPU使用率在50%-60%之间，内存在50%-70%之间，超过这个大值，运维人员就需特别关注。云主机是云计算最基本的底层服务之一，当遇到大并发，云主机的CPU使用率、内存增长率、网络传输质量，系统消耗量，快速恢复能力等都将会极大影响云主机的运行性能。

殷晋分析指出，IaaS是当前份额大的云服务领域，近70%的用户看中的是IaaS云服务可以提高业务效率才选择使用云服务商。但是现实是，系统性能正在成为云服务助力企业提升业务效率的拦路虎。如何提供稳定、高效、可用的云服务，已经成为云服务商们亟待解决的重点问题。