亚马逊AWS打个喷嚏结果半个地球的网站都感冒了

手机注册
邮箱注册

手机号

验证码

正在加载验证码......

获取验证码

密码

确认密码

电子邮箱

验证码

获取验证码

密码

确认密码

同意"爱活网用户协议"

已有账号, 立即

已发送密码重置邮件到您的注册邮箱，请立即点击密码重置链接修改密码！

验证邮件24小时内有效，请尽快登录您的邮箱点击验证链接完成验证。若未收到邮件请先确认是否在垃圾邮件中。

查看邮箱

重新发送

找回密码

手机找回
邮箱找回

手机号

获取验证码

验证码

获取验证码

新密码

确认新密码

电子邮箱

验证码

获取验证码

新密码

确认新密码

没有账号? 立即注册

@EVOLIFE 公众账号

On Wechat

@爱活新鲜播

On Weibo

@EVOLIFE.CN

On Instagram

Nina@evolife.cn

Mail us

@RSS

Follow our feed

科技

x912017/03/03

亚马逊AWS打个喷嚏结果半个地球的网站都感冒了

不管那些云计算服务提供商怎么宣称自己服务的可用性，他们保证得越好，出现故障时的影响也就越显著，尤其是像亚马逊AWS这种元老级别的云计算服务。大约在北京时间本周三凌晨，就当亚马逊负责云计算业务的副总裁在台上宣讲AWS的优势时，AWS突发故障，导致运行在其上的大量网站访问受到影响。

03-01

出现故障的节点在AWS美东1区，共计33个服务受到影响，其中9个处于完全中断状态，包括上线时间最长的，亚马逊首个云服务产品，存储服务S3（Simple Storage Service）。久经考验的S3颇受业界信任，许多网站都把它当作自己的后端存储，像github、Dropbox、Quora、Netflix、ESPN、AOL等等大型网站都在S3上储存自己的数字资产。由于S3本身就是一个跨地域分布存储服务，可用性极高，十多年来也没有出过这样的大问题，所有人都没有预料到它也会有故障下线的一天，结果都被打了个措手不及。

03-02

虽然亚马逊官方口径表示这次故障只是导致了AWS服务“报告的错误率上升”，拒绝承认AWS发生“服务中断”的情况，但大家的实际体验里是基于美东1区的那些站点下线时间长达4个多小时。百度或许应该感谢一下亚马逊替它吸引火力，因为刚好也是在当晚，百度的移动端也出现了无法访问的情况。

在事后调查结束之后，亚马逊今天还原了周三事故的过程：

当晚S3服务的一部分主机响应缓慢，于是一个技术人员着手把那部分有问题的存储主机下线，但在维护时他有一条指令打错，结果导致一大片服务器被突然下线。亚马逊发现问题后马上重启S3服务，但S3因为太长时间没有重启过了，而且十多年来S3的结构也被显著扩展过，所以它启动的安全检查和元数据验证等过程花费的时间比预期要久了很多。