您的位置: 首頁(yè) >科技 >

了解谷歌如何運(yùn)行其生產(chǎn)系統(tǒng)

2022-04-28 17:16:02 編輯:浦曼羽 來(lái)源:
導(dǎo)讀 這本書(shū)幫助讀者理解一些谷歌人是如何思考的:它包含了超過(guò)125位作者的想法。四位編輯,Betsy Beyer、Chris Jones、Jennifer Petoff和Nial

這本書(shū)幫助讀者理解一些谷歌人是如何思考的:它包含了超過(guò)125位作者的想法。四位編輯,Betsy Beyer、Chris Jones、Jennifer Petoff和Niall Richard Murphy,設(shè)法將所有不同的觀點(diǎn)編織成一個(gè)統(tǒng)一的工作,傳達(dá)了管理分布式生產(chǎn)系統(tǒng)的一致方法。

Site Reliability Engineering提供了34個(gè)章節(jié)——共計(jì)500多頁(yè)來(lái)自O(shè)'Reilly Media的印刷頁(yè)面——這些章節(jié)包含了保持谷歌生產(chǎn)系統(tǒng)工作的原則和實(shí)踐。整本書(shū)可以在https://landing.google.com/sre/book.html的網(wǎng)站上找到,還有其他演講、采訪、出版物和活動(dòng)的鏈接。

大多數(shù)IT操作專(zhuān)業(yè)人員會(huì)發(fā)現(xiàn)這些主題都很熟悉:風(fēng)險(xiǎn)管理、停機(jī)跟蹤、負(fù)載平衡、產(chǎn)品發(fā)布、故障排除、通信等等。在谷歌,現(xiàn)場(chǎng)可靠性工程師(SRE)的職位將軟件工程師放到了運(yùn)營(yíng)團(tuán)隊(duì)中。(SRE工作的許多方面與其他組織中的DevOps角色相似。)該書(shū)使用了一個(gè)假設(shè)的服務(wù)——莎士比亞搜索服務(wù)——來(lái)展示SREs如何與各種系統(tǒng)協(xié)同工作。

以下五個(gè)觀點(diǎn)只是本書(shū)所涵蓋主題的一小部分。

在《擁抱風(fēng)險(xiǎn)》一書(shū)中,Marc Alvidrez強(qiáng)調(diào),服務(wù)的可靠性需要根據(jù)用戶需求和產(chǎn)品經(jīng)理的目標(biāo)來(lái)確定,并與成本進(jìn)行權(quán)衡。因此,低于100%的可用性可能是可取的。例如,當(dāng)谷歌在2006年收購(gòu)YouTube時(shí),該產(chǎn)品仍在快速發(fā)展,因此一個(gè)較低的可用性目標(biāo)(即。,增加對(duì)不可用風(fēng)險(xiǎn)的接受)將允許更快地添加更多的特性。相反,G套件的可靠性目標(biāo)可以“設(shè)置為99.9%的外部季度可用性目標(biāo)”,而內(nèi)部目標(biāo)設(shè)置得更高。然后,Mark Roth詳細(xì)闡述了產(chǎn)品和SRE團(tuán)隊(duì)如何處理他們所謂的“錯(cuò)誤預(yù)算”。

Vivek Rau給出了“辛勞”的具體定義:“手工的、重復(fù)的、自動(dòng)化的、戰(zhàn)術(shù)的、沒(méi)有持久價(jià)值的、隨服務(wù)的增長(zhǎng)而線性擴(kuò)展的”工作。在“消除辛苦”一章中,我們?cè)敿?xì)地定義了這些術(shù)語(yǔ)。季度調(diào)查顯示,SREs將三分之一的時(shí)間花在了被定義為辛苦的工作上。谷歌的自動(dòng)化發(fā)展詳述了谷歌隨時(shí)間自動(dòng)執(zhí)行任務(wù)的各種方式,從自動(dòng)化MySQL故障轉(zhuǎn)移任務(wù)到減少啟動(dòng)新集群所需的時(shí)間。

在其中一個(gè)較長(zhǎng)的章節(jié)《數(shù)據(jù)完整性:你讀什么就是你寫(xiě)什么》(Data Integrity: What You Read Is What You write)的末尾,雷蒙德·布魯姆(Raymond Blum)和Rhandeev Singh兩次提到,谷歌通過(guò)離線保存數(shù)據(jù)避免了潛在的數(shù)據(jù)丟失。第一個(gè)案例研究詳細(xì)介紹了谷歌如何在2011年將數(shù)據(jù)從GTape恢復(fù)到Gmail。第二部分講述了團(tuán)隊(duì)如何處理將5000盤(pán)磁帶中的數(shù)據(jù)恢復(fù)為谷歌音樂(lè)的后勤挑戰(zhàn)。正如作者所寫(xiě)的,這兩個(gè)例子都說(shuō)明了對(duì)健壯的數(shù)據(jù)恢復(fù)系統(tǒng)的需求,“認(rèn)識(shí)到不僅任何事情都可能出錯(cuò),而且所有事情都將出錯(cuò),這是為任何真正的緊急情況做準(zhǔn)備的重要一步。”

雖然很少有公司規(guī)模谷歌分布式操作系統(tǒng),如果你理解distributed-consensus系統(tǒng)的體系結(jié)構(gòu),你可以做出決定,有助于提高系統(tǒng)的可靠性和服務(wù)通過(guò)選擇與供應(yīng)商合作,構(gòu)建系統(tǒng)基于這些原則。Laura Nolan涵蓋了現(xiàn)代多站點(diǎn)數(shù)據(jù)中心經(jīng)理在管理臨界狀態(tài)時(shí)需要知道的基本概念:可靠性的分布式共識(shí)。

有時(shí)候,看似簡(jiǎn)單的改變就能帶來(lái)改變,比如由誰(shuí)來(lái)主持會(huì)議。Niall Murphy(與《SRE中的溝通與協(xié)作》的幾位合著者)建議,當(dāng)兩個(gè)SRE團(tuán)隊(duì)通過(guò)視頻進(jìn)行會(huì)議時(shí),讓一個(gè)人從人數(shù)較少的站點(diǎn)主持會(huì)議是有幫助的。這是一種幫助平衡兩個(gè)不同規(guī)模的遠(yuǎn)程團(tuán)隊(duì)之間的力量動(dòng)態(tài)的微妙方法。科學(xué)嗎?不。有用嗎?是的。

SRE的長(zhǎng)期影響產(chǎn)生了高度自動(dòng)化的系統(tǒng),可以用越來(lái)越高的抽象級(jí)別來(lái)管理這些系統(tǒng)。正如該團(tuán)隊(duì)的口號(hào)所說(shuō),“SRE是當(dāng)您將操作視為軟件問(wèn)題時(shí)所得到的結(jié)果。”

站點(diǎn)可靠性工程對(duì)于任何參與IT操作的人來(lái)說(shuō)都是值得一讀的。對(duì)于大型企業(yè)中擁有一個(gè)或多個(gè)數(shù)據(jù)中心的人員來(lái)說(shuō),這尤其值得花時(shí)間。在閱讀它之后,您將無(wú)法復(fù)制谷歌的系統(tǒng)。但是,您將深入了解邏輯谷歌SREs方法是如何工作的,如何解決問(wèn)題,如何清晰地傳達(dá)技術(shù)概念。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。