摘要:谷歌的兩位領導者——數據中心的運營副總裁Joe Kava和安全隱私方面的優秀工程師Niels Provos向與會者分享了谷歌在全球范圍內設計、構建、運行和保護數據中心的實踐方式,其中包含一些令谷歌的數據中心獨一無二的秘訣,及其對于谷歌云端平臺用戶的意義。
6月6日消息,在首次云端平臺使用者大會(Google Cloud Platform Global User Conference)上,谷歌的兩位領導者——數據中心的運營副總裁Joe Kava和安全隱私方面的優秀工程師Niels Provos向與會者分享了谷歌在全球范圍內設計、構建、運行和保護數據中心的實踐方式,其中包含一些令谷歌的數據中心獨一無二的秘訣,及其對于谷歌云端平臺用戶的意義。
安全性和數據保護
谷歌一直以來將重心放在數據的安全和保護上,這也是我們的關鍵設計準則之一。在物理安全方面,我們以分層安全模型為特色,使用了如定制的電子訪問卡、警報器、車輛進出限制、圍欄架設、金屬探測器及生物識別技術等保障措施。數據中心的地板配備了激光束入侵探測器,并安裝了高清晰度的內外監視器,全天候檢測追蹤入侵行為。此外為以防萬一,可隨時調用訪問日志、活動記錄以及監控錄像。
同時數據中心還安排了經驗豐富的保安人員每日例行巡邏,他們已接受過背景調查與嚴格的培訓(可以點擊查看數據中心的360度視頻)。越靠近數據中心,安全措施系數就越高,只有一條安全通道能進入數據中心,通過安全徽章和生物識別技術來實現多重訪問控制,只有特定職位的員工才有權進入。在整個谷歌公司,只有不到1%的員工曾踏足此區域。
我們還采用了非常嚴格的點對點監管鏈,用于儲存、追蹤全過程——從第一次HD輸入機器直至證實其已被銷毀或清除。同時,我們采用了信息安全和物理安全雙管齊下的方式,由于數據通過網絡傳輸的特性,若未經授權可隨意訪問的話就會非常危險。有鑒于此,谷歌將數據傳輸過程中的信息保護擺在優先位置上,用戶設備與谷歌間的數據傳輸通常都是利用HTTPS/TLS(安全傳輸層協議)來進行加密輸送。谷歌是第一個默認啟用HTTPS/TLS的主要云服務提供商。
谷歌自建硬件和監測系統
谷歌的服務器不包括那些不必要且會產生漏洞的組件,比如顯卡、芯片組、外圍連接器。谷歌的生產服務器運行著基于Linux精簡版和硬化版定制的操作系統,且這些服務器和操作系統只為谷歌一家提供服務。服務器的資源是動態分配的,允許靈活增長與快速高效地適應,同時還能根據客戶的需求來添加或重新分配資源。
團隊還必須在谷歌的基礎架構狀態與功能上增加先進的實時可視性功能。眾所周知,谷歌在數據方面極度用心。為了協助團隊,谷歌已為所有的功能區域配備了監測與控制系統,包括服務器、存儲、網絡系統、配電房、機械冷卻系統以及安全系統——我們全方位地對“從芯片到冷卻裝置”的性能和操作進行監測。
利用機器學習來優化數據中心操作系統為了努力實現這一目標,我們利用機器學習和深度學習算法來優化數據中心的操作系統。正如想象的那樣,我們的數據中心內部大而復雜,所有電氣、機械和控制系統協力只為提供最優性能。對常人而言,由于系統之間的交互信息與可能的設置十分復雜,很難想象怎樣實時優化數據中心;但對于電腦來講,運算這些可能的情境并找到最佳設置簡直小菜一碟。
過去幾年內,我們開發出了這套算法,并使用全世界谷歌網站數以億計的數據點對其進行了訓練。我們現在利用這個機器學習模型幫助數據可視化,以便運營團隊為數據中心配置電力與冷卻裝置,以確保指定時間的性能達到最優最高效(考慮到影響性能的自變量多達19個),幫助團隊找出難以一眼發覺的不連續或者效率不高的數據點。
以可再生能源為動力
在能源方面,我們致力于利用可再生能源來為基礎設施提供動力,谷歌在可再生能源方面是全世界最大的私人投資者。截至目前,谷歌已經在可再生能源的“能源采購標準協議”上投入了超過20億美元,這些協議重要的原因在于:谷歌計劃在未來10-20年間繼續投資購買風能和太陽能;這些風電場和谷歌數據中心有著相同的電網系統;風電場和數據中心共享電網系統,為項目開發人員提供建立項目所需的財務保證,因此我們明白:除了可再生能源之外,不會再通過其他方式來發電。
冷卻方面,平均每12-18個月我們會對基本的冷卻技術進行重新設計。通過這種方式,我們所開發的水冷系統在創新上占據領先地位,使用水源包括海水、工業大壩水、回收水及灰水(污染較輕的生活用水)、收集重用的雨水,并涉及了熱能儲存。此外我們還設計了不使用水冷系統的數據中心,這種系統100%依靠室外空氣自然冷卻。關鍵是:并沒有“一體適用”的解決方案,每個數據中心會根據特定的位置設計出適合自己的冷卻方案,以求能達到最高性能和最高效率。
數據中心由谷歌自行運營,不通過第三方
設計與建立方面的行業規范削減了對用戶手冊和圖紙的需求,直通正確的解決方案,運營者無需憑借僥幸。一般來講,運營團隊受雇于低價攬活的外包商,而不是業主本身,但在谷歌并非如此,我們有自己的雇員來管理、運營數據中心。在運營時有這樣的慣例:問題和錯誤常在午夜出現——通常是周日的午夜,因為那時沒人隨時待命處理問題。
工程師+運營團隊的組合
對于所雇的員工和他們運營數據中心的方式,我們采取了不同的態度:工程師和運營專家的背景各不相同,但卻有個共同點——他們都是系統思考者。團隊的很多成員有關鍵業務方面的背景,比如美國海軍核潛艇項目,在這些項目中,任何錯誤都會釀成災難性后果,因此他們很懂系統的交互方式。此外,谷歌在所有數據中心園區還成立了區域站點團隊,由負責設計和施工的工程師及運營團隊共同組建而成,這些綜合團隊共同負責構建、調試系統以及提供全天候運營服務,從而賦予了我們對基礎架構無與倫比的自治權。