阿里云出现故障原因 运维操作失误与未知代码bug有关

|2018-06-28 10:44:49

  近日不少用户反映阿里云出现故障无法访问,这给很多用户带去了麻烦,引发了不少网友的吐槽,不过阿里云的工程师已经快速解决了这个问题,并发布了公告,具体原因如下。

 

  复盘故障原因称,是工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。
 


 

  阿里云称,“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。 ”

 

  云服务器核心服务包括向中小企业用户与高端用户的云服务器租用服务和向大中型互联网用户的弹性计算平台服务。这样的服务器作为节点,非常集中。
 


 

  有观点称,如果云服务器公司破产倒闭或出现故障,那相应节点也将下线或停止工作。

 

  下面来看看事情发展的起因。

 

  一位行业从业者发推称:阿里云的函数计算挂了,导致线上故障。打算马上降级到本地计算,结果阿里云的 Kubernetes 也挂了。想着挨个机器手工改一下,发现 OSS 也挂了…整个过程没有报警,因为 SLS 也挂了…(备注:未得到阿里云官方确认)。

来源:秀目号