赵成是国内顶级的SRE专家,目前负责蘑菇街平台技术部。认识赵成,是因为我在极客时间写了一个专栏《技术与商业案例解读》,他也在极客时间写了一个专栏《赵成的运维体系管理课》。同为作者,我对赵成在运维体系的积累留下了深刻的印象。一次加了微信以后就聊了很多。 大约认识一年以后,我有机会出差杭州,和赵成第一次见面,一起吃了一顿丰盛的晚餐,并且参观了一下有着诸多漂亮小姐姐的蘑菇街。早年我进入微软的时候做Cosmos,经常要oncall,是属于很经典的DevOps的经历,但是因为整个公司整个组都毫无经验,吃过无数的苦。 那次见面,和赵成聊起来的时候,就常常心有戚戚然。如果早点认识的话,可能很多的麻烦就可以避免了。我当时就觉得赵成不但对理论技术功底很扎实,而且对实践特别的有经验。但是他之前的技术专栏《赵成的运维体系管理课》里更为侧重理论的部分,而他更为精髓的则是他的实践落地经验。 听他说有计划要再写个专栏分享这方面的经验,但是没想到这一等就是一年多。听到赵成终于把这个新专栏写出来的时候,我迫不及待的给他推荐给大家了。下面听听赵成是怎么说的。 我是赵成,在基础架构和运维领域工作 10 年有余,目前负责蘑菇街平台技术部,主导中间件、稳定性、工具平台、运维和安全等工作。 2017 年底,我在极客时间开了一门课《赵成的运维体系管理课》,系统整理并分享了我在运维和 DevOps 方面的经验。 这两年,我又近距离接触了很多不同类型、不同规模的企业 IT 团队,我发现他们为了提升用户价值的交付效率,都在积极采用微服务、容器等分布式技术和产品,也在积极引入像 DevOps 这样的先进理念。 这些公司,选择了正确的架构演进方向和交付理念,效率自然提升了一大截。但你会发现,效率提升的同时,挑战也跟着来了:引入如此众多的先进技术和理念后,这种复杂架构的系统稳定性很难得到保障,怎么办? 答案就是:SRE。 近几年,业界对 SRE 的关注越来越多,大家几乎达成了共识——Google SRE 就是目前稳定性领域的最佳实践。甚至可以说,SRE 成为了稳定性的代名词。 那么,SRE 到底有什么过人之处呢?我先给你分享一张图,这是我结合自己团队的日常工作,做出来的 SRE 稳定性保障规划图:
我们最初画这张图,是为了提高故障处理效率,将每个阶段可以做的事情填进去,并在实践中不断补充完善,最终形成了我们探索 SRE 的框架图。 你会发现,SRE 要做的事情并不神秘,我们每天做的监控告警、运维自动化、故障处理和复盘等工作,就是 SRE 的一部分,Google 在介绍 SRE 时,很多篇幅也都是我们熟悉的内容。 然而,在实际落地这套方法论时,大家还是有很多疑惑,比如:
要知道,上面这些问题不是我凭空臆想出来的,而是在跟众多企业 IT 团队交流和调研的过程中,我被问及最多、最频繁的问题。总结起来,分为两大类:
这两类问题,其实并不难解决。要真正掌握 SRE,不能仅仅向 Google 或其他大厂学习具体的技术经验,而是将这些技术有机结合,形成一套稳定性体系,让体系发挥出力量。 所以,我系统梳理了自己的经验和调研,与极客时间合力打磨了专栏《SRE 实战手册》,帮你正确理解 SRE,掌握 10+ 必知必会 SRE 知识点,同时通过 2 大典型 SRE 组织架构案例分享,建立可落地的故障应急处理机制,构建体系化建设 SRE 的思路。 👆,免费试读 结算时,输入优惠口令「XUEXISRE6」 再减 5 元,到手仅 ¥14.9 仅限「前 200 人」有效
|
|