我们已经准备好了,你呢?

2024我们与您携手共赢,为您的企业形象保驾护航!

2022年12月18日上午,阿里云发布《阿里云香港C区某数据中心设备异常》公告,“阿里云监控发现香港某数据中心设备异常,影响香港C区ECS、云数据库等云产品的使用,阿里云工程师正在紧急处理。”

在这个寒冬,一个惊雷在业界掀起了不小的波澜。很多人疑惑,承诺的高可用呢?承诺的N9呢?SLA就是个笑话。服务还是down掉了。虽然经过十几个小时,阿里云香港节点服务恢复,数据恢复,总算让老板们松了一口气,但估计很多运维小伙伴已经开始迁移服务或者开始备份了。

但不是每一家公司都这么幸运。不知道还有没有人记得“前沿数控”这家公司,它的所有数据原本都存储在一个云硬盘上。结果因为一个云硬盘故障,公司所有数据全部丢失,一夜之间回到了解放前的日子。不知道现在这场官司的结果如何。

阿里云宕机事件之后,我想很多老板都会考虑可靠性问题,特别是服务和数据的安全性。就连最粗心的老板也会让人做服务和数据的冷备份,稍微懂行的老板也会尝试混合云。我想现在应该不会有人嘲笑那些自己搭建小型容器云和机房的公司了。

处理公共云故障的方式与处理内部服务的方式有很大不同。

曾经有老板问我,要不要在公司内部建一个。我说可以,但是优先级不高,等有精力有时间了再建。公司内部很多服务可能都会有问题,可能哪里出错,怎么解决,其实往往都有固定的答案,你只要想一下就能知道问题可能出在哪里。很多时候,不是我们缺少跟用户沟通的渠道,而是我们没有应急方案,也没有实践过。失败是一定会发生的,只是我们不确定什么时候会失败。先把重要的事情做好,不做会要了你的命的事情做好,做好了再考虑其他的事情。

,一句话概括:当您的线上业务出现宕机时,可以让您与客户进行沟通,告知客户当前的服务状态和问题处理进度。当业务处于正常服务状态时,客户也可以查看当前的服务状态是否正常。同时,客户还可以查看此业务所有的历史问题发生和处理记录。

我们在公司内部跟用户沟通的渠道有很多,在公司内部一般会有一个系统的用户群,当服务宕机的时候会发出各种监控报警,跟系统相关的人会第一时间注意到,并且第一时间被群里知道,这一点跟公有云服务有很大的区别。

无论多么好的计划,如果没有排练,它就只是一个计划。

就像往常一样,很多公司都会宣称我们的系统有备份,可以恢复。其实很多时候只是备份和恢复的“计划”。最后真正需要恢复的时候才发现,要么备份失败,要么备份成功但数据过期,要么数据找到了但无法恢复……总之结论就是无法恢复。在这个行业干久了,八卦也发生过,身边有太多血淋淋的案例,这里向全哥表示一下:)

在线服务故障演练

我们确实需要对在线服务进行故障演练,演练各种故障场景下容错能力、配置合理性、服务健壮性、监控告警有效性、定位解决问题的应急能力等,发现在线服务的薄弱环节,提升服务的容错性和可恢复性。

不要依赖运气,努力工作,一步一个脚印,减少陷入陷阱的次数。

二维码
扫一扫在手机端查看

本文链接:https://by928.com/5011.html     转载请注明出处和本文链接!请遵守 《网站协议》
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。

项目经理在线

我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

13761152229

上班时间

周一到周五

公司电话

二维码
微信
线