當前位置：云計算 → 行業動態 → 正文

巨人之地：構建超大規模云計算設施

責任編輯：cres 作者：Sebastian Moss |來源：企業網D1Net 2018-07-25 10:12:06 原創文章企業網D1Net

如今，全球數字基礎設施的建設是一項獨特的協作活動，各國政府、研究機構和企業都在創建數據中心、電纜、基站、衛星、傳感器的巨大網絡中發揮作用。

但是有一些行業廠商做出了無與倫比的貢獻，通常是那些建立大型網絡，并提供大量數字業務的公司，以及花費數十億美元來進一步擴大其市場主導地位的公司。

“十五年前，當我開始在谷歌公司工作時，當時并沒想到谷歌公司將會構建世界上最大的網絡，或者是世界上最大的計算基礎設施，”谷歌公司副總裁Benjamin Treynor Sloss表示。他的工作是讓谷歌公司的業務保持不間斷運營，從搜索到地圖，再到云平臺的所有一切，

他說，“如果谷歌的業務停止運行，那這就是我的過錯，維護業務運行是我的主要職責。”

當Sloss加入谷歌公司時，當時無法預測該公司及其基礎設施要求的規模有多大。他說，“我當時只是知道在接下來的三個月中需要做很多事情，并在兩到三年內將會得到更大的發展。”

而在微軟公司，該公司數據中心戰略和架構高級主管David Gauthier的經歷與Sloss類似。他說，“我在微軟公司工作了大約19年，而且我一直參與我們的數據中心基礎設施的建設與運營。這是一段相當艱難的旅程，先是在微軟公司早期的MSN，然后是Bing的原始算法搜索。而在當時成為一個超大規模廠商時，我認為微軟公司并沒有真正掌握將要發生的事情，那就是云計算，而云計算行業在很短的時間內得到指數級發展。”

谷歌公司也不得不應對這種非凡的增長，其進軍云服務市場進一步加劇了這一趨勢。“當我們開始提供公共云產品時，采用了正在使用和運行的數據中心、基礎設施、網絡、服務器，以及已經使用的所有內容。”Sloss說。

他表示，現在的目標是讓谷歌云平臺客戶能夠以與谷歌搜索或Gmail相同的可用性、性能以及功能豐富性來構建服務。

Sloss說，處理這一挑戰需要仔細平衡想法、路線圖和優先事項，并將他的工作比喻為是一個投資組合管理人員的工作。他說，“我的團隊中有5000人，在每一個領域，我都有一些人員在接下來的三到六個月里做一些沒有必要的事情。”

Sloss說，“谷歌公司許多員工正致力于迭代改進技術，而一部分員工則專注于成功概率較低的技術研發。這些事情必須齊頭并進。我們鼓勵員工遵循谷歌公司的70-20-10理念(核心業務占70%，核心相關項目占20%，不相關項目占10%)。我們每個季度都投入了大量的資金，并得到進一步的努力，以獲得少數能真正完成的項目，轉變為可以極大地推動業務發展的項目。”

“例如，使用機器學習來提高效率，提出這個問題的人來自其中的一個迭代團隊，”Sloss說。 2016年，谷歌公司的DeepMind部門宣布將一個數據中心的能源使用效率(PUE)提高了15%。

有關谷歌公司采用該算法的廣泛程度的細節有限：“我要說的是：正在推出這個算法，我們將在構建或改造新數據中心時繼續推廣，而人們需要了解我們目前擁有的大部分數據中心，他們已經從中受益。”Sloss說。

而微軟公司的Gauthier說：“我們都在使用人工智能和機器學習來優化我們的基礎設施，降低能源消耗，以及降低水和其他資源的消耗。”

容量問題

機器學習也被用來幫助進行容量規劃。去年，亞馬遜網絡服務公司的首席執行官安Andy Jassy表示，“AWS公司最不了解的一個方面就是面臨巨大的物流挑戰，這是一項非常難以運營的業務。”

“當然，我們在許多領域使用機器學習，”AWS技術傳播者Ian Massingham表示，“容量預測是一種經典的序列預測機器學習用例。那我們為什么不這樣做呢?實際上也有客戶這樣做。游戲發行商Electronic Arts公司正在使用機器學習來規劃自己的EC2容量隊列，因此當他們推出新游戲時，他們已經準備好了足夠的容量。”

“他們的介紹并不十分具體，但我可以采取一種非常有根據的猜測。”Sloss談到了AWS公司的容量規劃，“需求計劃不僅僅是對需求曲線的簡單推斷。實際上有可預測的高峰和低谷，就像9月到5月之間谷歌搜索的需求增長，然后在6月到8月之間，很多學生放假時，需求曲線會變平。所以人們可以看到這些歷史影響。我們可以規劃容量，當人們談論數十億美元投資建設基礎設施時，提高5%的效率變得非常重要。我們假設亞馬遜公司也可能在做同樣的事情，但沒有對外公布，而我們已經做這樣的事情已超過15年。”

Gauthier同樣表示：“我認為我們可以使用機器學習，這是公平的，但無法證實。”

為了確保有足夠的容量來滿足突然的需求增長，每次Mi??crosoft Azure啟動新區域時，它都會確保其數據中心位置有新的空間，并且其公用事業提供商擁有額外的資源。“我們最不愿意做的就是開通一個全新的區域，并且沒有增長。”Gauthier說，“我認為人們對于采用云計算還保持著擁有無限能力的幻覺。這確實是云計算面臨的挑戰，因為許多基礎設施和硬件正在變得越來越成熟。我們如何進行容量規劃以保持這種錯覺，這正是比較矛盾的地方。”

保持對AWS所追求的突然容量轉移控制的一種方法，就是限制客戶可以在不與云計算公司討論他們的計劃的情況下啟動多少個實例。“因此，如果客戶想要超過這些賬戶限制，就需要提出一份申請表，快速審查其用例。”Massingham說，“然后我們知道潛在的消費足跡是什么，我們可以用它來告知我們的容量規劃。”

為了提供過度配置而不會因此而損失過多的資金，AWS公司還運營著EC2現貨市場，這是一個打折的拍賣式市場，如果客戶采用一個經典的市場模型購買這些資源，另一個客戶可以競價購買可收回的資源。“人們所看到的是，我們試圖恢復那尚未被利用的產能的邊際成本，尚未出售用于需求使用或儲備實例的產能。”Massingham說。

現貨市場是AWS社區所要求的一項舉措，Massingham認為該社區為云計算公司提供了獨特的優勢。

“我們很早進入云計算市場，由于某種原因，其他可能成為競爭對手的企業在當時沒有意識到云計算的潛在影響，因此我們占據了先機。”他說。

而企業具有領先優勢的是獲得了大量客戶反饋和使用的數據，“因此我們非常了解客戶對現有服務的重要性，并有機會與客戶討論他們希望我們添加到服務中的內容和平臺。”他說。

下一件大事

談到云計算市場份額，AWS公司目前處于市場領先地位，但每個公司都有一個龐大的研發部門，試圖找到未來發展更為重要的東西，改進功能或技術創新，這將給他們帶來優勢，或者削減他們內部服務的成本。

“我們實施了許多不同的計劃，這些計劃將持續兩年到五年甚至更長時間，以試圖讓企業跟上技術的發展方向。”Gauthier說道。“我們看看數據中心的其他部分需要花費時間、資金和精力來運行，從發電機到UPS，再到配電系統，然后再了解設計的超大規模系統到底有多必要，通過分配工作負載來處理軟件故障，并應對可用性挑戰。“

AWS公司表示，正在嘗試擺脫對電網的依賴，在過去五年中在機架級嘗試采用氫氣和甲烷氣體動力燃料電池。Gauthier 表示，“為了消除電網的損失，消除變壓器的所有配電挑戰，并將它們整合到一個非常有效的系統中。我們的試點采用新能源的數據中心運行良好，它使我們能夠向供應商生態系統展示使用燃料電池的可能性。”

Gauthier說，為此采用新能源的另一個優勢是，能夠消除數據中心柴油發電機需求的技術和產品都會使新建的數據中心獲得許可變得更加容易。“我不能提供燃料電池何時進入生產數據中心的時間表，但我可以說這絕對是我們的首要任務。這是一項非常有趣的技術，它是我們與生態系統共享的東西。我們定期舉辦行業會議，甚至我們的一些競爭對手也會談論技術，以及我們如何可以讓這個行業更加成熟。”

美國能源部國家可再生能源實驗室的一位消息人士與微軟公司合作測試和應用燃料電池技術。谷歌公司代表已表示對該技術感興趣，并參觀這個實驗室以了解更多信息。

Gauthier說，微軟公司研發部門非常積極參與的另一個領域是高密度的機架冷卻，可能使用液體冷卻技術。隨著人工智能和機器學習工作量的增加，“數據中心的功率密度不斷增加，而我們正在密切關注風冷技術。此外，我們開始采用其他冷卻技術方向。”

谷歌公司也在研究液體冷卻技術。憑借其最新一代Tensor Processing Unit TPU 3.0，它首次采用了這項技術。“其他條件相同，液體冷卻比空氣冷卻更加昂貴，因為將采用更多的管道、更多的銅材，以及更多的熱交換器，必須冷卻每個芯片。”Sloss說，“所以除非真的需要，否則不會這樣做，但由于這些機器學習系統的功率密度越來越高，必須獲得更好的冷卻。”

在采用TPU和其他內部硬件產品之前，谷歌公司通常會讓其數萬名員工試用該設備。Sloss說，“當我們首次推出這樣的產品時，其功能可能并不成熟，并且需要不間斷運行。它實際上并不是一種可以作為服務提供的形式。”

在這種情況下，谷歌采用“dogfooding”的方法，即讓谷歌公司自己的員工作為測試基礎。“這是一個足夠大的用戶群，企業可以在公共場合找到各種各樣的東西，并且擁有更寬容的受眾。當提供一些技術并不成熟的產品時，谷歌公司不斷進行完美更新，但卻不會有關于這種產品的新聞報道。”

這個過程以及對創新的關注可以幫助企業在市場和技術方面保持領先，Sloss表示，“我們將谷歌公司視為第一家大規模實施云計算的公司，因為在1998年就開始構建這些技術產品。而當時一些擁有定制系統和定制數據中心的企業都認識到云計算在靈活性和經濟性方面帶來了巨大的好處。所以我并不擔心會被所擁有的設計——我們現在設計的是每個企業都在投資的東西。但一個更有趣的問題可能是：云計算之后將會是什么? ”

同樣，他認為這是一個投資組合的問題：“谷歌公司的總工程量中有多少利用了當今使用的基礎設施，而不是使用下一代技術?我不知道我能否準確預測未來15年的基礎設施會是什么樣子。但我會看到谷歌公司仍然處在機器學習基礎設施的最前沿，這與云計算基礎設施幾乎沒有什么不同。對我來說，這是一個關于計算進展的一個有趣的新角度。”

規劃停機時間

但Sloss警告說，創新需要犧牲。他創建了網站可靠性工程的概念，這個學科融合了軟件工程的各個方面，并將其應用于IT運營問題。并且，他指出產品開發和SRE團隊在創新速度和產品穩定性之間可能遇到結構性沖突。“這可以通過引入錯誤預算，即設定的錯誤百分比和停機時間來解決。” Sloss說。

那么是否有錯誤預算?Sloss說，“是的，它只是非常小，谷歌公司的可用性目標通常在5個9的范圍內。”

Sloss說，如果用戶無法訪問谷歌網站時，很多原因與谷歌公司的業務中斷毫無關系。而作為用戶，實際上無法區分完全可用性和5個9的可用性。對人們來說它看起來完全一樣。但是，供應商所需的努力和成本水平，以及從5個9到6個9所需的工程資源和特征速度的消耗實際上是巨大的。”

Sloss正是這么認為的，100%并不是企業大多數服務的可用性目標，這是關鍵。他說，“即使達到100%的可用性，但實際上人們對其體驗可能是99%。一旦明白了這一點，那么問題是：什么樣的可用性目標能讓用戶非常滿意，能夠以極快的速度和非常低的價格交付大量新產品的平衡?然后就要選擇正確的點，這是至關重要的。”

實現大規模系統的高可用性，同時仍在不斷發展和推出新功能，這給所有主要的云計算廠商帶來了困難，因為每個公司都遭受了計劃外停機和停機時間。

“我們在AWS內遇到了大多數提供商永遠無法實現的擴展挑戰。”Massingham說，“我們設計的系統可以解決大多數提供商從未設計過的挑戰。當然，我們過去曾經遇到過服務事件，但人們可能已經注意到的一件事是，這些事件發生的頻率比以往任何時候都要低得多。”他說。

微軟公司減少這些事件數量的方法之一是簡化數據中心的運營。“如今的數據中心越來越復雜，其中一些維修轉移程序擁有75個或80個步驟，并且將在10或12種不同的動力傳動系統中實現這一目標。”Gauthier說，“這只是大數定律，人們會犯錯誤。因此，我們在數據中心的設計上花了很多時間，考慮如何在維護情況下最小化必須采取的步驟。”

但Sloss說，基礎設施的最大原因是軟件漏洞。“當人們考慮云計算中的災難事件時，他們往往會關注那些戲劇性的事情：如果發生火災怎么辦?如果發生爆炸怎么辦?如果發生大規模停電怎么辦?如果發生地震怎么辦?而實際問題卻是軟件漏洞。”

出于這個原因，該公司在冷存儲方面進行了大量投資，因為彈性要求企業擁有一個漏洞無法接觸的離線存儲。

Sloss 表示，“即使我們遇到過最引人注目的問題，重點仍然是‘這個錯誤應該由誰負責?'它的主題是：‘如何修復我們的分析、流程、系統等等，在將來不會發生這種情況?’這種理念完全適用于我們現在在公共云中所做的事情，因為在公共云中，人們無法控制誰在使用系統。”

總之，這些行業巨頭不得不改變經營方式，在這樣做的同時，也可能改變其他公司的運作方式。

關鍵字：云計算