Cloudflare昨天事故原因公布,一个低级错误

doi 2022-6-22 1681

原文链接:

https://blog.cloudflare.com/zh-cn/cloudflare-outage-on-june-21-2022-zh-cn/

精简版:

过去的18个月里Cloudflare对流量最大的19个数据中心的网络架构进行了升级,这些数据中心承担了Cloudflare 50%以上的流量(阿姆斯特丹、亚特兰大、阿什本、芝加哥、法兰克福、伦敦、洛杉矶、马德里、曼彻斯特、迈阿密、米兰、孟买、纽瓦克、大阪、圣保罗、圣何塞、新加坡、悉尼、东京)

而Cloudflare昨天在修改BGP规则的时候犯了一个低级错误——他们在更改BGP路由时错误的把部分重要规则放在REJECT后面:

!    term REJECT-THE-REST { … }
!    term 4-ADV-SITE-LOCALS { ... }
!    term 6-ADV-SITE-LOCALS { ... }

这导致这些IP被空路由,影响到了所以使用新版架构的数据中心(使用旧架构的数据中心没有受到影响)

另外这还使得内部负载均衡失效,流量被平分到每一个节点,进而导致部分小节点瘫痪……

这也是为什么有的地区可以正常访问Cloudflare的原因。

最后是一堆道歉和改进措施

最新回复 (2)
返回
发新帖