2023年11月12日晚6点，阿里云又发生重大故障了，早在2022年12月18日，阿里云香港Region可用区C发生大规模服务中断事件，对很多客户业务产生重大影响，影响面扩大到香港可用区C的EBS、OSS、RDS等更多云服务。这次影响更大，在这一个多小时里，饿了么都下不了单，骑手进不了系统，点不了外卖、停车场不抬杆、超市无法结账！微博像个“报丧太监”一样，大报特报“阿里云全线产品崩了”，相继，淘宝崩了、淘宝又崩了、闲鱼崩了、钉钉崩了等冲上热搜

2023年11月12日晚6点，阿里云又发生重大故障了，早在2022年12月18日，阿里云香港Region可用区C发生大规模服务中断事件，对很多客户业务产生重大影响，影响面扩大到香港可用区C的EBS、OSS、RDS等更多云服务。

这次影响更大，在这一个多小时里，饿了么都下不了单，骑手进不了系统，点不了外卖、停车场不抬杆、超市无法结账！

微博像个“报丧太监”一样，大报特报“阿里云全线产品崩了”，相继，淘宝崩了、淘宝又崩了、闲鱼崩了、钉钉崩了等冲上热搜。

这次很可能不是一般的“崩了”，根据当前获知的信息来看，很可能是刷新历史级的“崩了”。

双11当晚，淘宝曾有短暂宕机，但很快就过去了。但到了12日傍晚，包括淘宝、闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、菜鸟、夸克、语雀等，多个阿里系App出现无法访问或服务异常的情况。

最无语的应该是语雀了。上个月，也就是10月23日，阿里旗下的产品“语雀”也发生了“P0”级事故，导致平台无法正常访问和使用，持续了近8个小时（14时10分至21时45分左右）。

上次事件中，语雀向用户赠送了半年的会员作为补偿，不知道这次是否会有类似的补偿措施。

受影响的区域：

华北2（北京）、华北6(乌兰祭布)、华北1（青岛)、华东2（上海）、华南2（河源）、华北3（张家口）、中国香港、印度（孟买）、美国（硅谷）、华南1（深圳)、英国(伦教）、韩国（首尔）、日本(东京）、阿联酋（迪拜)、西南1（成都）、华南3 （广州）、新加坡、澳大利亚（悉尼）、马来西亚（吉隆坡）、华北5（呼和浩特）、印度尼西亚（雅加达）、美国（弗吉尼亚）、菲律宾(马尼拉）、泰国（曼谷）、华东1（杭州）、华南1金融云。

从阿里云的健康状态页（Status Page）的信息看，这不是某个可用区的故障，而很可能是全球大故障，几乎没有幸免的区域，受影响的不光是阿里云自有的业务区域，还包括对外服务的金融云，政务云。更严峻的是，没有一个幸免的服务，清一色全挂。

事件回顾（故障三个半小时（17:44 - 21:11 ）：

17:44阿里云确认故障原因与某个底层服务组件有关，工程师正在紧急处理中。

18:54经过工程师处理，杭州、北京等地域控制台及API服务已恢复，其他地域控制台及API服务逐步恢复中。

19:20工程师通过分批重启组件服务，绝大部分地域控制台及API服务已恢复。

19:43异常管控服务组件均已完成重启，除个别云产品（如消息队列MQ、消息服务MNS）仍需处理，其余云产品控制台及API服务已恢复。

20:12北京、杭州等地域消息队列MQ已完成重启，其余地域逐步恢复中。

21:11受影响云产品均已恢复，因故障影响部分云产品的数据（如监控、账单等）可能存在延迟推送情况，不影响业务运行。

有行业从业者表示，对于阿里云此次故障感到十分震撼，因为其从业以来还没听说过这种规模的云计算故障。

当前各个技术群里充满着焦虑愤怒，因为这种情况下，用户的自救可能性为零，只能等待阿里云恢复。

而由于阿里云的市场份额巨大，就在十几天前的2023云栖大会上，阿里巴巴集团主席蔡崇信曾指出，目前中国80%的科技企业和一半的大模型公司都跑在阿里云上，此次故障造成的影响面非常大。

云上产品开始渗透到我们生活方方面面，对此，受到影响的网友纷纷加入双十一混战吐槽：

而同行也毫不客气调侃起来阿里降本增“笑”初见成效。

本次事故的表象是技术故障，但是维护系统的始终还是人。

这一事件引起了一些网友的猜测，有人质疑是否是因为阿里云8月份的大规模裁撤大龄员工，关键人员的减少，从而导致了这次故障。

然而，这只是网友的猜测，并没有确凿的证据来支持这一说法。我们不能基于猜测来评判和看待这次故障事件。

有网友说：阿里这次崩了，从某个角度讲，也许是一件好事——有些老兵，还是得留一留。

有网友发出疑问：阿里这次损失惨重，这是降本增效的后遗症？

从阿里云的角度看，这次故障很“不阿里云”，毕竟阿里云一向以安全稳定高可用自居，如此大范围、如此长时间、影响面如此广的故障，对阿里云的品牌形象绝对是致命的打击，这已经不是“杀一个程序员祭天”就能了事的，很可能需要“杀一个CEO”，但遗憾的是，阿里云现在并没有CEO。

更头疼的是，后面还要面对漫天如同雪花般的赔偿诉求。

员工角度

接连出事，原来降本增效、开“猿”节流的福报又得被迫释放人才了。

年终奖没了事小，扣工资更有可能。至少会拿个P0祭天。懂事的阿里人已经开始写简历了。

客户角度

之前字节中午全线崩一个小时，损失2个小目标。这次阿里云双十一期间崩，根据SLA99.99%，一小时就是10%赔偿。

未来更面临订单变化，阿里云不再是高性能、高可用的代名词了。经此一役客户对阿里云的迷信很可能将破灭。

品牌角度

AWS、华为云、腾讯云等敌蜜已经摩拳擦掌，有句老话“趁你病，要你命”，血洗一波客户更在待何时？

网安角度

其实最近接连出现网安故障的还有ChatGPT，同日下午，ChatGPT和其他一些服务出现故障，正在调查各种服务宕机原因。随后，OpenAI表示，故障问题解决，现已正常运行。早在周四，ChatGPT发现了受到DDoS攻击的迹象（DDOS是（Distributed Denial of Service）的缩写，即分布式阻断服务，黑客利用DDOS攻击器控制多台机器同时攻击来达到“妨碍正常使用者使用服务”的目的。早在11月9日，OpenAI的ChatGPT和API服务出现严重中断故障，导致面向用户和开发者的服务无法正常使用。在随后的16个小时里，ChatGPT仍未完全恢复。

作为用户和外界，我们应该看待这次故障事件的处理过程，阿里云的工程师们迅速采取行动，通过重启和逐步恢复服务来解决问题。

他们的努力和积极应对值得肯定。同时，我们也要认识到云服务作为一个复杂的系统，难免会出现故障，即使是技术领先的公司也无法百分之百地消除故障发生的可能性。

有时候，事故发生并不完全掌控在人们手中，可能是硬件故障、软件错误或其他许多因素导致的。

关键是公司应该有透明度和责任心，能够及时发布信息，积极应对故障，并从中吸取教训以提高系统的稳定性。

因此，我们应该以客观的态度看待这次故障事件，肯定工程师的快速响应和故障处理的效率，并鼓励阿里云进一步加强故障预防和应急处理能力，以确保用户数据安全和服务的稳定性。

同时，我们作为用户也应该为自己的数据备份和灾难恢复做好准备，以降低出现故障时的影响。

任何服务都不可靠，增强底层服务组件的容灾能力，异地多活、多机房部署、甚至多云部署，“有备无患”。

阿里云发生的大规模故障事件，提醒我们云服务并非完美无缺，但通过积极应对、持续改进和用户的积极参与，我们可以共同确保服务质量达到更高水平，并促进云计算的持续发展。

对于此事，您有什么感想和看法？欢迎评论区留言！

声明：本文内容来源自网络，文字、图片等素材版权属于原作者，平台转载素材出于传递更多信息，文章内容仅供参考与学习，切勿作为商业目的使用。如果侵害了您的合法权益，请您及时与我们联系，我们会在第一时间进行处理！我们尊重版权，也致力于保护版权，站搜网感谢您的分享！(Email:[email protected])