最近,在舊金山召開的Google Cloud Next大會上,這家互聯網搜索引擎巨頭展示了其如何保護、運營其日益增長的云數據中心,并對這些數據中心進行壓力測試。
鑒于谷歌這家超大規模的云計算服務巨頭的數據中心所需要支持的龐大用戶群和數量眾多的服務,推動了許多提供商試圖破解谷歌公司如何在全球范圍內連接起其所運行的海量基礎設施的設計規則手冊。
他們傾向于建立多個龐大的園區式服務器場,而不是構建單一的獨立設施來備份到另一處地理位置的數據中心,進而也就不需要任何單點故障來防范停機。
超大規模的運營商們通常選擇采用瞄準了特定工作負載所定制的硬件,并大量購買,以確保當越來越多的用戶涌向他們的服務時,他們看起來具有無限的能力來應對這些處理需求。
前段時間,在舊金山舉行的Google Cloud Next大會上,這家互聯網搜索引擎巨頭坦誠的分享了一些關于他們如何確保自己的數據中心以可持續,高效,有彈性,安全和快速的方式運行的工作的見解。
Google在數據中心可持續發展方面的努力的成效可以說是有目共睹的,2017年,該公司已經實現了其全部數據中心資產均100%使用可再生能源的承諾愿景。
據Computer Weekly網站較早前的報道稱,該公司最近也在積極的探索如何利用其Deepmind部門的人工智能專長來削減其整體數據中心的電源使用效率(PUE)值。
該公司所作出的另一項承諾是:在2017年的每個月,他們都將開放一個新的數據中心區域。在Google Cloud Next大會上,該公司還宣布了從2017到2018年期間,將在荷蘭、加拿大和美國加州進行額外投資建設的項目計劃。
屆時,該公司將在全球范圍內的數據中心地理區域分布共計將達到16處,其中包括50個可用區域,以及100多處數據中心站點。
托管以消費者為中心的服務
除了站堅守其Google云平臺(GCP)及其業務生產力工具G Suiter套件之外,這些數據中心也與托管其以消費者為中心的服務(如搜索引擎和YouTube)相同,這些服務構成了幾乎每位網絡用戶的支柱互聯網體驗。
為此,該公司的數據中心基礎設施被設計用于旨在確保用戶在任何時候都能夠盡可能高效地使用,Google Cloud技術基礎設施高級副總裁Urs Hlzle在大會第二天的主題演講中提到。
他說:“我們設計了基礎設施的各個環節,使您能夠獲得獨一無二的成效,并充分享受到我們所創造的杰出性能。”
“你必須優化每一個元素。從高效的數據中心到定制的服務器,從定制的網絡設備到軟件定義的全球骨干網絡,再到用于機器學習的應用程序專用集成電路(ASIC)。
在過去三年中,該公司投資了300億美元,建立了一款有彈性和響應能力的基礎設施,這是由巨大的網絡容量能力所支撐的。
“分析師稱,我們的網絡流量占全球互聯網用戶總流量的25-40%。” Hlzle說:“作為一家GCP或G Suite客戶,您企業將可以從這個網絡中受益,因為您企業的流量是在我們私有的、超高速骨干網進行傳輸,達到了最小的延遲。”
“為了把這個流量傳輸到世界各地,我們也需要跨越海洋進行傳輸。九年前,Google就已經成為了第一家建立起海底電纜的非電信公司。那就是從美國到日本的海底電纜,從那時起,我們已經在全球范圍內廣泛建造或收購海底光纖容量,所以我們幾乎在任何地方都有冗余的骨干網。”
提高硬件性能
Google數據中心副總裁Joe Kava在展會倒數第二天的演講展示上向與會者們介紹了關于該公司如何建立其服務器場的幕后細節。
盡管假設該公司必須采取一刀切的方式來實現數據中心的建設是合乎邏輯的,但事實并非如此,每處數據中心的位置都會對設計和設置構成極大的影響。
Kava表示:“我們已經在開創和研發先進的基于水的冷卻系統方面取得了進步,如海水冷卻、再循環灰水冷卻、暴雨收集和再利用、雨水收集,工業運河用水和熱能儲存等。
“我們還設計了根本不需要消耗任何水就能實施冷卻的數據中心。相反,他們100%采用室外的空氣冷卻。關鍵是并沒有一套適合所有數據中心模型的一刀切的模式。
他補充說:“我們所有的數據中心設計都是針對特定地區而定制的,以達到最佳效率。”
像許多其他超大規模云計算公司一樣,基于成本和性能方面的原因,該公司傾向于使用定制化的硬件,而Kava則指出,如果不這樣做,該公司將難以滿足用戶對其服務的需求。
他說:“我們幾乎所有的基礎設施都是按照我們自己的計算需求進行定制設計和專門設計的,所有這些都是為了提供最高的性能而進行協調和優化的。”
“我們的服務器沒有任何不必要的組件,如視頻卡,芯片組或外圍設備連接器,這些不必要的組件可能會帶來漏洞,而我們的生產服務器運行一款定制設計和剝離版本的Linux系統。而我們的服務器和操作系統僅用于為Google服務提供服務。”
在第二天的主題演講中,該公司還宣布了他們是世界上第一家部署英特爾Xeon處理器的云提供商的消息,其技術在Skylake的基礎架構中被公認為Skylake,Hlzle表示,此舉將展示該公司對性能改進的承諾。
他表示:“我們正在從多個維度方向上推動性能方面的改進,這意味著我們的工作必須要有很大的不同,Skylake為計算密集型工作負載提供了很好的性能表現。”
定制的云基礎設施
Kava承認,當他九年前第一次加盟該公司時,還對為什么公司在基礎設施方面需要如此高的定制化來提供服務感到困惑?
他說:“很快,我就了解到,我們所進行的是相當非凡的工作,因為當我們開始時,我們所需要的規模并不存在。”
“為了實現性能,效率和目標價格,我們必須建立自己的服務器,開發和創建可靠性的硬件、軟件和文化,以使Google能夠取得成功。”
自從2016年3月以來,Google一直積極參與Facebook支持的開放式計算項目(OCP)計劃,并提出了與49伏機架系統相關的設計,并將其站點包裝起來。
“我們也在數據中心投入了大量的機器人方面的研發創新。我們的每個數據中心都有全自動的磁盤擦除環境,可以實現更快,更高的吞吐量,更高效和更好的庫存管理。”他補充說。
這并不是說,人們在保持谷歌的數據中心資產順利運營方面沒有起到任何作用,因為該公司必須保證提供24小時全天候不間斷的支持。Kava說。
“我們擁有自己的Google員工隊伍,他們通過設計,施工,調試和運營等方面的密切配合。到任何地方,他們都是最好最聰明的工程師和操作人員。”他說。
“其中許多員工來自關鍵任務環境,如海軍核潛艇計劃,而在這樣的計劃中,一旦發生錯誤,后果可能是災難性的。他們了解任務是至關重要的。”
鑒于2017年2月底,Amazon Web Services(AWS)的簡單存儲服務(S3)曾發生過3小時39分鐘的中斷事故,究其原因是工程輸入錯誤, Kava也相當熱衷的指出Google的基礎設施是如何不受人為錯誤影響的。
“因為我們所擁有的杰出的設計和高素質的工作人員,只有一小部分的問題是人為錯誤有關的,而在那些人為錯誤有關的問題中,從來沒有一例在我們的數據中心造成過停機中斷。”
鎖定數據中心
每當唱反調的人看到公眾對云計算公司所提供的安全性提出疑問時,通常的反駁會拿供應商們所擁有的財務和人力資源與其日常企業組織相比較。
Google則認為,這已經是一種過時的追求方法,而在主題演講中,Hlzle強調,該公司所運營的一處數據中心園區有175名保安人員負責每年365天全天候24小時的值班。
反過來,這又由相機,運動傳感器,虹膜掃描儀和基于激光的入侵檢測系統提供支持,這些系統都旨在防止無關人員進入數據中心。
Hlzle在這一演講上發布了Google的Titan芯片,該芯片適用于所有企業的新的數據中心服務器。
“我們在所有新機器上都安裝了這一安全芯片,以作為機器身份信任的基礎。這款芯片是由Google設計的,有助于保護服務器免受篡改,甚至在BIOS的級別。”他說。
“這有助于我們對硬件設備進行身份驗證,除此之外,還可以幫助我們實施認證服務,因為他們互相調用,他們必須相互證明自己的身份。”
該公司還采用了一種新穎的方法,用來確保其安全防范最終能夠勝任,Kava在演講結束后的互動交流問答期間表示。
這可以看出,該公司在這一新穎的方法中隱瞞了現有的Google員工的信息,并為此打破了其數據中心的安全防范,確保他們能夠承受內部的安全威脅。
“如果有任何人知道您數據中心的弱點在哪里,以及如何利用這些漏洞的話,那么這些人肯定是你企業自己的員工。他們不會告訴任何同事他們被招募到該方法項目中了,而他們會試圖做你不能做到的事情。”他說。
Kava說:“如果有一個漏洞被暴露,那么其在全球范圍內就會得到修補改正。而如果沒有發現任何新的漏洞,也許足夠了。我們還沒有達到這一點。顯然,我們還任重而道遠,要做的事還有很多!