谷歌平臺的副總裁Bart Sano,在企業需求背景下,談到了關于谷歌硬件選擇、遷移所面臨的挑戰以及下一波云計算。
隨著大量的數據遷移到各個云提供商平臺,云提供商都競相擴大其基礎設施選擇,谷歌也不例外,看起來這些新的技術,作為一種成為市場上主要參與者的手段。
谷歌平臺的副總裁Bart Sano,帶領著一個團隊,甚至算是一個公司。他們設計warehouse-scale數據中心,并且,公司內部一切以其大規模運營能力而文聞名世界。
Sano談到關于SearchCloudComputing的谷歌硬件和基礎設施—從他們如何適應企業的需求到下一波云計算,以及遷移客戶的多樣化工作負載所面臨的挑戰。
谷歌和英特爾最近宣布了合作開發企業云應用。其中一部分包括谷歌2017年云平臺的下一代英特爾芯片。這一伙伴關系的動力是什么呢?
Bart Sano:我們通常不做這種類型的聲明,但我們認為這是非常重要的,因為,用戶可以了解到該項技術明年初就會上市。不僅能給最終客戶帶來有用的好處,很明顯,谷歌本身對我們的搜索、廣告、以及系統來說,都是很有用的。對于云來說,也是很有用的,因為其提供了更高的性能以及更多的配置,通過更大的內存占用以及多個線程等,能夠幫助解決不同的工作負載問題,同時,建設架構能夠幫助解決更多的計算和向量處理問題。
谷歌構建其基礎設施來滿足自己的特殊要求。你需要改變底層硬件,來滿足云客戶一系列不同的需求嗎?
Sano: 谷歌有五到八個不同的產品領域,而這些產品領域都有自己的形式和功能。談到云,我們在客戶方面有更大的多樣性。很多客戶仍然在內部傾斜的類型內適用,本質上,因為他們是通用的,但是,也有客戶希望實現最大的內存配置,或者最快的浮點比率。不僅在計算方面,而且在數值計算方面—GPU變得越來越多樣化,最終,采用我們的機器學習TPU(張量處理單元)。
TPU和GPU之間,甚至現場可編程門陣列(FPGA),似乎有一個大熱潮,主要的云提供商想要將這些技術,在他們的平臺上實現合并。這背后蘊藏著什么?
Sano: 我們試圖支持下一波云,機器學習和數據處理,利用機器學習和分析大數據。你需要更多的數值計算,求出大數據處理。
例如,不是每個人都需要一個GPU來做一個小的機器學習模型,一個特定的任務—也許CPU功能就足夠了。這就是我們平時一直做的,直到我們的問題變得太大,我們不得不采用gpu。然后,這個問題成為太大的問題,我們必須做自己的定制硬件。然后,你需要決定[成為]做一些定制asic(專用集成電路)和FPGA嗎?有不同的架構方法:你想要可編程的嗎?你想要固定功能但更有效率的嗎?每種架構方法都有自己的不足和優勢。
所有這些不同的縮略詞的原因是(因為),我們看到計算從一般用途轉變成機器學習和分析空間,并且,我們看到云提供商試圖引進分析功能—一般用途以前不需要的功能。
能解釋一下,這個過程在谷歌是如何展現的嗎?
Sano: 我從FPGA開始講起。你通常采用FPGA,因為FPGA是可編程的,你不能預測未來,所以,就要有靈活性。快速部署這個FPGA,然后將其個性化。很難預測未來,但這是非常昂貴的、非常耗電,因為它們是通用的。
另一個方向是,如果你能足夠快地開發定制ASIC,快速部署,這樣的話,FPGA的優勢有所減輕。這是我們的立場。我們能夠及時開發ASIC,我們一直努力構建基礎設施,在某種意義上,你可以進行再造,重新補充人員,重新個性化。
谷歌是一個容器的早期采用者。關于容器技術如何開始流行起來,你的觀點如何?
Sano: 我到這里后不久,我們做了一個決定:我們應該采用VM還是容器?糾結了很久,我們最終決定采用容器,因為容器的開銷低,盡管容器在管理方面等,可能會復雜一些,但是,容易是一個更有效的解決方案。事實證明了這是一個正確的決定。虛擬機是很靈活的,但是,因為虛擬機的靈活性,你需要支付更高的溢價。對我們來說,效率是非常大的、重要的方面。因為我們的規模,1%或2%的內存效率或處理器遷移時間和開銷—很重要。
促進客戶規模遷移,谷歌面臨的挑戰是什么?
Sano:移動數據并不簡單,這是一個巨大的挑戰。坦率地說,軟件是最大的挑戰,獲取所有的軟件,這樣,就可以遷移數據集等等。我可以很容易地看到,什么時候可能會變成一個異構平臺環境。
從本地環境遷移到云,不僅受到軟件,而且也受到硬件的約束。受制于硬件,這也是我們與他們合作的事情……我們試圖盡可能靈活適應他們,但是,這是這個行業的轉型,我們得通過。
過渡到云,面臨的其它挑戰是什么?
Sano: 運行在舊系統之上的傳統企業等,必須開發一個遷移策略。對我來說,是最大的問題,我們要做的就是構建更多的網橋,與混合環境匹配。