首页 > 业内资讯 > 谷歌是如何做到几乎从不宕机的?

谷歌是如何做到几乎从不宕机的?

时间:2016-04-12 | 来源:互联网 | 阅读:57

话题: 谷歌

考虑到在传统意义上开发和运营是完全不搭界的两个层面,你会觉得这种转变非常有意思。开发人员致力于写出一个新的软件,然后修改,最后再尽可能快地将软件推向大众用户;而运营人员则是保证不出差错,而最好的方式是将变化减少到最小。“这些本来是毫不相干的目标”,Underwood说,“不过开玩笑的是,当你把开发和运营联系起来,你就开始消弭他们之间的竞争目标了”。

Underwood称之为“黑格尔的对立统一理论”;不过当他这么说的时候,没有人买账。“人们都不再读黑格尔了”,他自嘲说。不过这种描述方式说到点子上了。一旦这种准备就绪,Google就加快了将所有的好想法都付诸这种模式的进程。

开发与运营之间的平衡

有一个很重要的想法是:为了减少开发和运营之间的冲突,Google并不要求100%的正常运行时间。正如Sloss在书中所写,实际上并不需要保证网络服务100%的时间里处于可用状态。用户也并不能真正区分出100%和99.999%的区别(实际上他们的笔记本、WiFi、电量掉线的时间远远超过0.001%)。如果你在100%之下设置一个合理的在线时间比例——误差预算——那么你将会足够的时间做出改变并且调试完毕。

“误差预算的运用消解了开发工作和SRE工作之间的冲突诱因”,Sloss说,“一次中断不再是一件坏事。它存在于一个创新过程中的可预期范围之内;这样一来,开发部门和SRE部门都能够解决这个问题,而不会感到害怕。”

与此同时,Google公司也推出一些相应的规定来保证SRE不会演变为老式的系统管理。原则上,SRE不允许花费50%以上的时间在传统的运营工作(与编程相抵触)上。如果在一个SRE团队中,运营的优先权已经超过了开发,Google就会将一些运营人员调配到普通的软件开发工作中去。“有意识地调节开发和运营之间的平衡,能够保证SRE们有足够的空间去投入到有创造性的、自动化的工程中去,”Sloss说,“当然,他们同时也得听取运营部门的意见。”

推荐

最新好玩手游

更多

手游风云榜

更多

资讯阅读

更多


湘ICP备2022002427号-10 湘公网安备:43070202000427号
© 2013~2024 haote.com 好特网