第二屆OCP峰會過后不到一周,2011年11月1日,百度、阿里巴巴、騰訊(合稱BAT)三巨頭在英特爾(Intel)的支持下發起天蝎項目(Project Scorpio)。相隔只有半年的這兩個項目因諸多共性而經常被放在一起比較,不過,天蝎項目最初的構想遠沒有開放計算項目(Open Compute Project,OCP)那么宏大,而BAT在IT基礎設施建設上的成就也不止整機柜服務器那么簡單。
在具有代表性的“自主”IT基礎設施建設上,BAT各有側重,可以不太嚴謹的說:阿里去IOE,騰訊TMDC,百度領舞天蝎。后兩個看似均在OCP覆蓋范圍內,其實也是三家都在做的事情。
進一步展開前,先建立一個粗略的格局對照組:
百度對Google,搜索,最先確立的一個中美對應關系;
阿里對AWS,電商和公有云;
騰訊對Facebook,社交巨頭。
微軟與金山并非生于互聯網,微軟在社交尚未敗陣之時,兩者完全不是一個量級。如今,至少在中國市場上,金山系的小米手機可以秒殺Windows Phone,而金山云能否追近Windows Azure(全球已更名為Microsoft Azure),還要看未來發展。
騰訊:自建數據中心與TMDC
BAT都有自建數據中心,但是美國的互聯網巨頭們自建數據中心更為普遍,最關鍵的區別就是——我們百說不厭的“國情不同”。
同樣是起家于社交服務,騰訊的資歷比Facebook老,投身數據中心建設的時間也更早。騰訊2008年就開始建設位于天津濱海新區的數據中心,2010年1月封頂,12月建成。Facebook的第一個數據中心2010年1月才開始建設,卻幾乎在同時完工,建設進度不可同日而語。
騰訊天津濱海數據中心外景,圖中左側建筑主體為當時尚未啟用的4號樓,中間露出一角的為3號樓
騰訊的第一代數據中心從2006年起步,在深圳寶安租的一棟廠房進行改造。2007年啟動的天津濱海數據中心發展為騰訊第二代和第三代(二期)數據中心,可承載超過20萬臺服務器,是目前亞洲最大的數據中心之一;屬于二期的3號樓,供電容量60MW(30×2),號稱亞洲單體供電能力最強的數據中心,單機柜平均容量8KW,高可到10KW。3號樓能承載10萬臺服務器,差不多相當于8萬個城市家庭的總用電量。
天津數據中心從開始拿地到最后交付,前后差不多用了三年時間。騰訊是第一次建設這么大規模的數據中心,有經驗欠缺和天氣原因(2009年年底,天津遭遇暴雪)的因素,但Facebook也是第一次,卻只用了不到一年的時間。
騰訊天津數據中心3號樓外景和內部大堂顯示的運營參數,當時投入生產只有半年多(見安全運營天數),進駐服務器較少,實時負載才1.3MW左右,PUE也接近1.5。隨著服務器數量的增加,這兩個參數都會向設計值靠攏
百度在山西陽泉的數據中心,建設周期為四年,一期總建筑面積達12萬平方米,從2012年8月19日奠基開工,到投入使用,也經歷了兩年左右的時間;美國Switch公司在拉斯維加斯的SuperNAP 9數據中心,由3個分段組成,面積47.1萬平方英尺(近4.4萬平方米),供電能力可達50MVA,預計建設工期一年,因為賭城允許24小時施工。
上面這組數字還算是接近的。總體而言,美國互聯網巨頭建設數據中心的進度更快,不得不提“中國特色”。相比美國,我國的數據中心建設主要受三大因素限制:土地、空氣、產業環境——簡而言之,就是“環境”。
首先,美國地廣人稀,可以毫無負擔的采用單層倉儲式大開間的設計,如Facebook的數據中心,單體一層大開間容量就可達到十萬臺服務器量級。與樓房相比,框架簡單,強度要求不高,不用考慮樓板承重問題,建設速度快,建好后直接進駐機架、微模塊、集裝箱無壓力,部署速度也快。
2013年8月底,夕陽下的Altoona數據中心建設工地,可以清晰的看到兩層閣樓式結構,只在地面層放置服務器。占地約194英畝(78.5萬平方米),到2013年11月中旬,每天有超過200人工作,累計工時近10萬小時
其次,空氣質量好,可以直接采用外部空氣冷卻(自然風冷),像Facebook就是頂棚進風和出風,外部空氣進入后與適當比例的熱通道(hot aisle)回風混合(必要時噴水霧),送入服務器機架前端所在的數據中心冷通道(cold aisle)。100%自然空氣冷卻,沒有空調水冷那么復雜的管線,也降低了對數據中心建筑的要求,同時提高能效和建設速度,可謂一舉兩得。
最后,美國的運營商數量眾多,互聯網巨頭在網絡建設上有很大的自主權,Google甚至在多地推出了光纖接入服務。因此,在偏遠地區建設數據中心,網絡接入不會成為制約因素。
反觀中國,由于全國網絡建設的不均衡,BAT等互聯網巨頭,建設數據中心要首選靠近用戶的地方,通常在人口密集的一二線城市附近(如百度M1數據中心在北京市酒仙橋區域),樓房必須是常態,不敢奢望單層倉儲式大開間。即使是在相對偏遠的地區,如融科智地建于大慶市東部的大慶聯想科技城云計算數據中心,也因為政府對建設用地容積率的規定,必須建成三層樓房。受限于地塊容積率、建筑覆蓋率等硬性條件,蓋兩層、三層,甚至五層樓的結構,會帶來很多制約。譬如,集裝箱在美國單層倉庫式數據中心可以很方便地進出,而在中國卻上不了樓。
GDS位于外高橋科技園區的上海自貿區數據中心,阿里與百度均為其客戶。多層建筑,以及由此而來的層高、立柱等限制,都是在前幾章Google和Facebook的數據中心照片里很難體會到的
另一個有目共睹的問題就是空氣質量,特別是京津地區,近幾年的狀況堪憂。騰訊在天津數據中心部分嘗試過空氣自然冷卻,但是空氣中的含硫量過高,腐蝕了許多硬盤的電路板,導致硬盤故障率上升很快,脫硫方案成本又非常高,后來只能關閉自然冷卻,改回內部循環。因此,空調和水循環冷卻系統仍不可少。典型的做法是一層接市電、裝柴油發電機,以及制冷設備和復雜的水循環管路,二、三層布置服務器機架等IT設備及電、冷支持系統(如騰訊天津數據中心3號樓)。這樣的話,基建工作復雜、要求高,IT系統的部署則受限于電梯等中間環節,總體周期長,PUE(Power Usage Effectiveness,電源使用效率)也無法與Facebook相比。
浪潮為新風制冷數據中心設計的SmartRack高溫耐腐蝕節點,主板、硬盤、內存、電源等部分都有涂覆,可在45度的高溫環境中正常運行
考慮到中國數據中心市場的現狀,BAT在加大自建數據中心力度的同時,仍與運營商或第三方數據中心服務提供商保持緊密的合作。百度有陽泉,阿里建張北,兩者還在上海使用萬國數據(GDS)的數據中心,阿里云與華通云數據(華數)的合作也由來已久。據說騰訊的服務器分布在全國13個城市的58個數據中心(這個數字應該在變化),可以確定的是,騰訊在天津、上海、深圳都有大型數據中心,天津濱海為自建,深圳坪山為聯通按照騰訊的(數據中心及微模塊相關)技術標準和規范建造,上海青浦則是騰訊與電信合建,建筑面積近5.8萬平方米,由4棟數據中心樓、1棟業務樓和1座35KV變電站等主要建筑組成,全部建成后可容納10萬臺服務器。
2015年6月,騰訊在重慶兩江新區的數據中心正式開工建設。該項目于2013年年底簽約,預計總投資金額為10億美元,占地面積150畝(10萬平方米),首期建成規模為10萬臺服務器,最終將建設為30萬臺服務器規模的大型云計算數據中心。重慶數據中心是騰訊在中西部地區建設的首個大型數據中心,也是其全國第四個大型云計算數據中心。這些數據中心都位于人口密集的一二線城市附近,好處是明顯的,建設上不利的外部條件也難以規避,特別是除天津外,均處在炎熱潮濕的南方,對數據中心的散熱提出了很大的挑戰。