对所有的技术人员来说,业务可靠性提升是一个系统工程,涉及网络管理、IDC管理、服务器管理、交付管理、变更管理、故障管理、监控管理、预案管理、根因分析、容量规划、容灾演练、标准化建设、集成测试、泛操作管理、权限管理、数据安全管理等方方面面,随着先进技术的应用、业务云化、微服务化等,业务架构变得更加复杂,任何一个环节出现问题,哪怕是一个小问题都可能演变成大故障,我们更加迫切需要一种新的方式提升业务可靠性。 业界做法和阿里云的探索 诸如Netflix探索通过异常注入的方式提升其视频服务的可靠性[1],已经演进成独立的“混沌自动化平台”(ChAP,Chaos Automation Platform);Microsoft Azure 在Netflix之后也研发了自己的异常注入平台;Google通过研发自动化平台来替代传统模型中的人工操作,在业务 |
|