不久前,IDC發布的2017上半年中國公有云市場追蹤報告中,中國公有云IaaS市場排名,金山云以報告期內營收6839萬美元,占有6.5%份額位居中國公有云IaaS市場第三位。金山云合伙人曹錫剛認為:“底層基礎決定上層建筑,金山云云計算平臺的穩定性、可擴展性離不開數據中心的支撐。”在接受中國IDC圈采訪時,他從國內本土化設計、全球差異化布局以及數據中心選址理念三方面解析金山云數據中心配置策略。
自主研發Netbench系統 提供有中國特色的優質網絡覆蓋
曹錫剛認為,在美國等IT前沿國家,云計算已經有相對較長時間的發展,對基礎設施的建設、運維也有了比較豐富的經驗。而中國目前處于云計算高速發展期,因為其速度快,與之帶來的是基礎設施建設的井噴式發展。
相比于國外,國內整體基礎設施環境、尤其是基礎網絡環境,在跨地域、跨運營商訪問質量上以及國際間互訪,都要遜色。怎樣為用戶提供優質的網絡覆蓋,這是國內云計算公司共同面臨的問題。金山云憑借對云計算網絡的深入理解,以及和國內外各個運營商良好的合作關系,很好地解決了這個問題。
中國地域遼闊,金山云對大跨度的物理地域按Region進行劃分,Region間使用高速、高冗余的傳輸網絡互連,提高了異地部署高可用以及靈活的網絡調度,避免區域性故障導致業務受損。
另外,金山云在同Region內進行Transit Center + Available Zone分工設計,帶來了接入類節點和生產節點的區分,通過同城(近郊)自建大容量傳輸環網系統將Region內的TC/AZ進行帶保護式互聯,在提供超大帶寬的基礎上進一步提高了Region內網絡容災能力,并進一步明確分工,合理化網絡架構及更好的優化成本。
曹錫剛坦言,在整體基礎網絡落地的過程中金山云也遇到了許多困難,例如BGP帶寬的精細化覆蓋、運營商故障時的流量調度、城域傳輸系統的流量發展速度超預期等問題,通過自主研發的Netbench系統,在監控到運營商大網故障時,可以根據金山云的網絡覆蓋情況,進行自動化流量調度,最大程度上減少運營商故障對網絡的影響。
數據中心差異化布局 國內全覆蓋,國外劃重點
云計算市場是一個全球性市場,金山云整體布局上采用國內全覆蓋,同步發展國外重點區域的策略,在滿足國內公有云資源需求的同時也可以支持用戶出海的需求。
曹錫剛表示,在國內規劃數據中心時,除了考慮電力、制冷等基礎指標外,并不忽視網絡覆蓋質量,金山云會優先確定網絡資源是否滿足要求,在滿足要求的范圍內,尋找高等級的數據中心。
北上廣是各大運營商的核心節點,網絡覆蓋質量優于其他城市,金山云核心節點都部署在北上廣,為客戶提供優質穩定的云計算服務。
以視頻云為例,根據其本身的業務特性,金山云采用本地覆蓋的方式,全球共建設600+CDN節點,20T+全網帶寬,覆蓋20余家國內外運營商,每天承載50PB互聯網流量,請求次數百億次,覆蓋網民3億。
金山云的數據中心及運營機構已經擴展到全球各地,已建和在建的有北京、上海、廣州、成都、香港、美國、新加坡、俄羅斯、印度、德國等地。
區別于傳統IDC 全方位考察更適合云計算的數據中心
云計算數據中心,在基礎設施方面與傳統IDC并沒有本質的區別,但是在規模、容量、網絡、光纖管道等方面會有更嚴格的需求。曹錫剛表示,金山云選擇數據中心會從多方面多角度考察數據中心選址,比如:地理位置、地質情況、市政水電、設計規劃、電氣架構、制冷架構、網絡管道、消防設施、安防等級、測試驗證、運維能力等因素。
他認為,地理位置,不僅僅是一個地址的問題,它引申出的問題如:交通道路情況、是否為自然災害高發區域、周邊有無化工廠、垃圾填埋廠等;地質情況,周圍是否為山地、對外排水情況如何。金山云之前考察過的一些數據中心,有的就是建在半山腰或者山下,而且還是雨水多的城市,這種地方都會有山體滑坡、泥石流等風險。
從市政水電方面來說,電是整個數據中心唯一的動力來源。因此金山云選擇數據中心的標準一定是“雙站雙路”或者“多站多路”,盡可能地降低電力源頭故障的風險。水源問題同樣重要,一般金山云會要求市政水主管道、園區內要求雙環形或者雙回路設計。
電氣架構方面,目前IDC業內主流的數據中心,電氣架構基本類似--2N系統,但有些數據中心往往忽略兩個問題:第一個問題,雖然電氣設備是雙套的,但都放在一個房間里,這在金山云看來也是單點故障,這個房間一旦放生火災,業務就要有全部中斷的風險。另一個問題,高壓母聯開關,有的數據中心覺得占用空間、邏輯復雜、增加投資成本而省掉,但這一點可能會將數據中心的級別從T3降到T2,高壓母聯開關不僅僅是電源故障時一種重要的保障措施,更重要作用是解決高壓檢修時可在線維護性問題。
對于制冷,目前IDC業內主流的數據中心制冷架構配置基本類似,冷機+冷塔+板換的模式,我這里只講一個問題:蓄冷罐,蓄冷罐的作用有兩個,一是峰谷平電價時,谷時存水、峰時用水的一種降低運營成本的用法。另外最最主要作用是冷機從停電到再啟動運行,往往需要5分鐘以上啟動時間,而且冷機還需要錯峰逐臺啟動,這5-10分鐘空白時間數據中心制冷是如何保障的?這時候就需要蓄冷罐儲存的冷水作為不間斷制冷的冷源支撐下去,道理就像UPS的電池蓄電一樣。
運維能力方面,隨著數據中心的建設規模不斷擴大,數據中心變得越來越復雜,一個運營商運營體系、運營能力、運營經驗就起到重要的作用。金山云主要考察的首先是運營體系、運維流程、管理制度,其次是人員能力素質,同時還有嚴格的SLA標準去要求。
曹錫剛總結,選擇一個數據中心并不是一個簡單的問題,它所涉及的方方面面技術因素其實是非常復雜的。雖然每家云計算公司選擇數據中心考慮的因素不盡相同,但歸根結底都是以適應業務發展要求,保障業務連續性,保證客戶滿意度為最核心標準。
至此,從數據中心中國本土化設計,到全球部署戰略,再到數據中心選址,一個國內公有云IaaS前三甲的數據中心部署策略逐漸清晰。據了解,金山云已布局19個大型數據中心,全球CDN節點數量達600+,BGP帶寬儲備200G+,服務器總量達80000+。