读了「Google SRE」还是一脸懵？我的好朋友赵成告诉你应该怎么办！

黄爸爸好 2020-03-19

展开全文

赵成是国内顶级的SRE专家，目前负责蘑菇街平台技术部。认识赵成，是因为我在极客时间写了一个专栏《技术与商业案例解读》，他也在极客时间写了一个专栏《赵成的运维体系管理课》。同为作者，我对赵成在运维体系的积累留下了深刻的印象。一次加了微信以后就聊了很多。

大约认识一年以后，我有机会出差杭州，和赵成第一次见面，一起吃了一顿丰盛的晚餐，并且参观了一下有着诸多漂亮小姐姐的蘑菇街。早年我进入微软的时候做Cosmos，经常要oncall，是属于很经典的DevOps的经历，但是因为整个公司整个组都毫无经验，吃过无数的苦。

那次见面，和赵成聊起来的时候，就常常心有戚戚然。如果早点认识的话，可能很多的麻烦就可以避免了。我当时就觉得赵成不但对理论技术功底很扎实，而且对实践特别的有经验。但是他之前的技术专栏《赵成的运维体系管理课》里更为侧重理论的部分，而他更为精髓的则是他的实践落地经验。

听他说有计划要再写个专栏分享这方面的经验，但是没想到这一等就是一年多。听到赵成终于把这个新专栏写出来的时候，我迫不及待的给他推荐给大家了。下面听听赵成是怎么说的。

我是赵成，在基础架构和运维领域工作 10 年有余，目前负责蘑菇街平台技术部，主导中间件、稳定性、工具平台、运维和安全等工作。

2017 年底，我在极客时间开了一门课《赵成的运维体系管理课》，系统整理并分享了我在运维和 DevOps 方面的经验。

这两年，我又近距离接触了很多不同类型、不同规模的企业 IT 团队，我发现他们为了提升用户价值的交付效率，都在积极采用微服务、容器等分布式技术和产品，也在积极引入像 DevOps 这样的先进理念。

这些公司，选择了正确的架构演进方向和交付理念，效率自然提升了一大截。但你会发现，效率提升的同时，挑战也跟着来了：引入如此众多的先进技术和理念后，这种复杂架构的系统稳定性很难得到保障，怎么办？

答案就是：SRE。

近几年，业界对 SRE 的关注越来越多，大家几乎达成了共识——Google SRE 就是目前稳定性领域的最佳实践。甚至可以说，SRE 成为了稳定性的代名词。

那么，SRE 到底有什么过人之处呢？我先给你分享一张图，这是我结合自己团队的日常工作，做出来的 SRE 稳定性保障规划图：

我们最初画这张图，是为了提高故障处理效率，将每个阶段可以做的事情填进去，并在实践中不断补充完善，最终形成了我们探索 SRE 的框架图。

你会发现，SRE 要做的事情并不神秘，我们每天做的监控告警、运维自动化、故障处理和复盘等工作，就是 SRE 的一部分，Google 在介绍 SRE 时，很多篇幅也都是我们熟悉的内容。

然而，在实际落地这套方法论时，大家还是有很多疑惑，比如：

SRE 到底是什么？能解决什么问题？
SRE 涉及范围如此之大，应该从哪里入手建设？
在稳定性技术体系的建设上，我们做了大量工作，为什么还是故障频发？单纯的技术保障不够吗？
故障后，最怕开复盘会，开着开着就变成了批斗会，有时问题还没定位清楚，就开始推诿扯皮谁该背锅了，故障复盘会的目的到底是什么？
引入 SRE 后，应该如何提升团队的能力？组织架构应该怎么匹配呢？

要知道，上面这些问题不是我凭空臆想出来的，而是在跟众多企业 IT 团队交流和调研的过程中，我被问及最多、最频繁的问题。总结起来，分为两大类：

理念：SRE 到底是什么？我们应该怎么来理解它？有哪些关键点？
实践：到底应该从哪里入手建设 SRE？组织架构应该怎么匹配？

这两类问题，其实并不难解决。要真正掌握 SRE，不能仅仅向 Google 或其他大厂学习具体的技术经验，而是将这些技术有机结合，形成一套稳定性体系，让体系发挥出力量。

所以，我系统梳理了自己的经验和调研，与极客时间合力打磨了专栏《SRE 实战手册》，帮你正确理解 SRE，掌握 10+ 必知必会 SRE 知识点，同时通过 2 大典型 SRE 组织架构案例分享，建立可落地的故障应急处理机制，构建体系化建设 SRE 的思路。

👆，免费试读

结算时，输入优惠口令「XUEXISRE6」

再减 5 元，到手仅 ¥14.9

仅限「前 200 人」有效

我是谁？

我是赵成，蘑菇街技术总监，《赵成的运维体系管理课》作者。我曾在华为工作七年，有丰富的电信行业软件研发及运维经验。

近两年，我和团队花了大量精力来做稳定性保障方面的事情，不断探索在 SRE 方面的实践，在日常的稳定性规范制定，监控、压测、服务治理、大促稳定性保障，故障应急和管理，以及组织架构建设等方面，积累了很多经验。

2019 年，我在 SRE 领域最具国际影响力的 SRECon 上，分享了蘑菇街在容量压测方面的实践经验，得到了全球各大公司同行们的热烈反馈。

我是如何讲这门课的？

专栏主要分为两个部分：

第一部分，夯实基础，带你建立 SRE 稳定性标准。

在这一部分，我会先讲清楚 SRE 是什么，以及业界衡量稳定性的标准是什么。将 SLO 作为引入 SRE 的切入点，因为它相当于我们稳定性标准化的基础，也是稳定性保障的共识机制。有了这个共识，我们才能更好地管理稳定性，消除周边团队的不理解和不认可。

同时，我还会引入一个电商的案例，梳理在实际场景中设定 SLO 应该考虑哪些因素。

第二部分，SRE 最佳实践。

这一部分，我会从“故障”和“组织架构”这两个关键词入手来讲：

第一个是“故障”。围绕故障这个影响稳定性的核心事件，结合实践案例，分析如何减少故障发生次数，缩短故障影响时间，进而提升系统可用性及稳定性。

第二个是“组织架构”。这是做 SRE 绕不开的关键问题，要想做好 SRE 的落地，必须得有与之匹配的组织架构和协作机制。我会结合自己的实践经验，和我了解到的行业经验，让你看到真实的组织架构设置和跨团队协作模式。

通过这两个维度的学习，可以系统地解答你关于 SRE 的疑惑点。我有足够的把握，带你从 0 到 1 建设 SRE 体系，建立起有效应对各种稳定性问题的合理的组织架构。

说了这么多，是时候看看目录了：

从我这订阅，有什么福利？

早鸟优惠 ¥19.9，原价 ¥39。
结算时，输入优惠口令「XUEXISRE6」，优惠基础上再减 ¥5，到手价 ¥14.5，仅限「前 200 人」有效。

👆扫描上图二维码，免费试读👆

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：黄爸爸好 > 《devOps》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

黄爸爸好

关注对话

TA的最新馆藏

价格战，并不是大模型厂商的初衷
[转] 如何在本地运行 Llama 3 8B 和 Llama 3 70B及硬件配置推荐
TPAMI 录用 | 最高3倍无损训练加速：清华提出视觉基础网络EfficientTrain
让桌面程序自动更新变得简单：AutoUpdater.NET的魅力
RocketMQ 是什么？它的架构是怎么样的？和 Kafka 又有什么区别？
.NET Aspire 正式发布：简化 .NET 云原生开发

喜欢该文的人也喜欢更多

热门阅读换一换