首页 > 业内资讯 > 谷歌是如何做到几乎从不宕机的?

谷歌是如何做到几乎从不宕机的?

时间:2016-04-12 | 来源:互联网 | 阅读:88

话题: 谷歌

Chef公司的Jacob认为这里所提到的50%的比率并没有那么重要,但是他喜欢这种态度。他说“那是业务,总要有人去处理运营工作;而且运营工作几乎是无穷无尽的,所以你硬要给他们扣上一顶帽子也是可以理解的。”

在雇佣SRE时,Google甚至制定了严格的规范。在招募的人员中,有50%到60%的人员会通过像其他所有Google工程师那样的严格考核,剩下的需要拥有85%到99%的Google工程师技能,加上一些特殊适用于SRE但是大多数软件工程师不具备的技能——比如说对于UNIX操作系统和硬件网络协议了如指掌等。这些都是为了保证开发和运营之间能够保证一个恰当的平衡。

SRE的雄心

从多种层面上而言,这是一种全新的理念。但是在他的书中,当他们试图描述这种理念的时候,Google团队却选用了一个比较老旧的例子。Google SRE的精神先行者是一个来自MIT的名为Margaret Hamilton的程序员,她在六十年代为阿波罗飞船编写了登月程序。正如Hamiltion自己说的那样,阿波罗项目中衍生出的部分文化是向所有人和所有事物学习,包括那些看起来学不到什么的人和事。

虽然Hamilton是一个码农,但她在运营中承担重要角色。为了证明这一点,这本书中讲了一个故事:她经常带她的女儿Lauren进入到计算机实验室,有一天,Lauren恰好碰到一个按钮,然后把阿波罗的预发射程序植入到一个正在运行“发射后场景”程序的计算机中去。

这一下让整个系统卡死;Hamilton试图在系统中添加一段错误监测代码,以便在真实的飞行过程中能够阻止这种错误。她的上司否决了整个想法,辩称宇航员绝不会犯这种错误;但是在阿波罗8号中,宇航员的确犯了这么一个错误。幸运的是,Hamilton在系统文档中加入了一个变通方案。在后续工作中,她还是加入了这段错误监测代码。

如果你过来跟我说“它会死机”,那没有什么用;但是如果你说“它会死机,让我来告诉你怎么解决”,那你就很棒了——Underwood说。“而在我们这里,会有人既知道会出现一些问题,也知道问题出在哪里,并且能找出方案防止问题发生。”

推荐

最新好玩手游

更多

手游风云榜

更多

资讯阅读

更多


湘ICP备2022002427号-10 湘公网安备:43070202000427号
© 2013~2024 haote.com 好特网