游客发表
阿里云故障过去一段时间了,阿里目前原因基本确认了;相关原因和反思可以重新思考一下看看有哪些是云故值得借鉴和反思的地方。
先来看一下网上披露官方报告。障解

访问密钥服务 (AK)在读取白名单数据时出现读取异常,密和因处理读取异常的反思代码存在逻辑缺陷,生成了一份不完整白名单,阿里导致不在此白名单中的云故有效请求失败,影响云产品控制台及管控 API 服务出现异常,障解同时部分依赖 AK 服务的密和产品因不完整的白名单出现部分服务运行异常。
2023 年 11 月 12 日 17:39 起,反思阿里云云产品控制台访问及管控 API 调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK) 异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。b2b信息网
我们一定不要抱着吃瓜的态度去看这个问题,冷嘲热讽,如果事件发生在我们头上能做哪些优化
优化点:
隔离:数据层面一定要想办法做隔离;分级:数据推送线上环境之前一定要做检查和分级,比如我可以在一个小的地区和国家先推送,没问题再推送;检查:在上线前一定要做case回归。关于稳定性的一些个人思考:
我工作大概10年了一直在处理着各种各样的故障;越是重大的故障其实越是简单,越是简单的事情就越难得老板的认可;其实我觉这个也是需要老板去思考的,一味的追求高大上,很难应对简单的故障;简单的事情往往又很难得到职级和薪资待遇的提升。如何取得平衡是需要思考的。随机阅读
热门排行
友情链接