2022年12月18日,或许是阿里云最黑暗的一天。阿里云香港可用区C因机房水冷设备故障,发生大面积服务中断,对很多客户业务造成重大影响,包括当天中午起澳门地区多个网站、APP无法访问。云服务器一般宕机后几个小时左右就能恢复,但阿里云在12月18日上午8点56分首先检测到故障预警,直到第二天凌晨0点30分所有服务才恢复正常。整个故障持续了15个半小时以上。难以想象,全球第三大云计算服务商在机房出现异常时,需要这么长时间才能恢复,这和它宣扬的各种黑科技高可用大不相同。
这次故障对阿里云的技术品牌造成了很大的损害,就算你继续宣传你的技术,客户可能也不会再相信你了,一旦失去客户的信任,你很快就会失去市场,毕竟云计算市场竞争还是很激烈的,华为云、腾讯云、百度云等公司都在加紧抢占市场份额。
故障恢复
暴露问题:制冷系统监控不足
当机房发生故障时,首先检测到的是机房温度异常高,随后才发现机房制冷设备出现问题。显然机房监控系统并没有对制冷机组进行监控。原因是机房主备水冷机组共用一个水循环系统,因此存在单点故障问题,一旦水循环系统出现问题,就会影响主备水冷机组。后来手动操作制冷设备仍然无法恢复其正常运行。显然没有对水冷设备进行过设备故障演练,导致问题发生后很长时间才恢复运行。
为何要对机房进行直喷?
大家都知道机房里的服务器都是电子设备,电子设备最怕水,如果服务器受潮,很有可能造成短路、服务器损坏,从而导致数据丢失,延长故障恢复时间。那么他们为什么不喷洒七氟丙烷气体来灭火呢?至少泡沫或者粉末会管用。但实际上,直接引发喷洒操作,这也很奇怪。
高可用性毫无用处
企业使用阿里云的一个重要原因就是看重它的高可用性,希望当故障发生时,用户能够快速无感的切换,将故障导致的业务中断时间降到最低。在此次阿里云宕机故障中,虽然采用了B、C可用区双机房进行容灾,在C可用区故障后通过B可用区对外提供服务,但可惜的是B可用区的服务实例资源不足。同时ECS启动时所依赖的中间件服务并不是双机房容灾,只是部署在可用区C机房,此时可用区C机房已经出现故障,导致B区无法扩容。这也暴露出阿里云对于重要的基础中间件和OSS基础服务并没有真正实现完全双机房容灾,出现了单点故障问题。
阿里云智能更换领导层
2022年12月29日,距离阿里云宕机事件不到两周,阿里巴巴董事长兼CEO张勇向全体阿里巴巴员工发信,宣布人事变动。张勇将亲自担任阿里云智能总裁,张建锋不再担任阿里云智能总裁。信中提到:唯有通过每一个小动作,维护客户利益、创造客户价值,才能承担起引领发展、创造就业、参与国际竞争的伟大使命。
这封信发给全体员工之后,张勇以阿里云智能总裁的身份,给全体阿里云员工发了一封内部信。信中的措辞更是严厉,800多字中,“客户”一词被提到20多次,可见张勇这次是真的急了。以下是这封信的部分内容。
反射
不管是像阿里巴巴这样规模的公司,还是创业公司,要想赢得客户、赢得市场,就必须始终把客户的利益放在第一位,把客户的信任放在第一位。否则,一旦失去客户的信任,就会逐渐失去市场,进而在激烈的市场竞争中被淘汰。希望在新的一年里,阿里云能够真正汲取这次宕机事故的教训,真正为客户创造价值。
扫一扫在手机端查看
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。