在2016云棲大會·武漢峰會上,阿里云技術專家宋杰分享了他對云計算的三條路徑的理解和感悟,并且闡述了云計算對于企業而言到底意味著什么的問題。那么阿里大數據發展之路經歷了哪三次技術突圍?阿里又是如何通過十余年的技術沉淀最終鑄就飛天系統的呢?本文將為你揭曉答案,精彩不容錯過。
對于企業來說,但是到底云計算是什么呢?相信很多企業都有這樣的困惑,讓我們一起回到這個原始的起點探討究竟什么是云計算?云計算對于企業而言到底意味什么?
云計算的三條發展路徑及三種落地形態
當回到最初的起點再審視云計算的發展路徑,可以發現,經過十余年的發展演進,云計算有三條發展路徑,并且最終沉淀下來了三種落地形態。
第一條路:源自于谷歌對大規模數據的處理,谷歌為全球的互聯網用戶提供同一個服務——搜索,它需要將全世界所有的網站的數據都爬回去,然后做排序和索引,之后再為用戶提供搜索服務。可以看到這樣的工作需要對海量數據進行處理,谷歌需要把上百萬臺的服務器整合起來去做排序,索引和查詢。
第二條路:淘寶則發展出來云計算的另一條路徑,這條路與谷歌的相比有類似之處,同樣需要把很多數據整合起來做一件事情。在我看來,淘寶所做的事情比谷歌更偉大一點,因為淘寶做的事情是交易。承載6億用戶在線訪問和下單支付,這件事情比簡單提供一個不能保證這次查詢和下次查詢結果的差異的查詢要更加困難,也更加偉大。因為這是有極其嚴格的業務要求的,雖然在規模上而言淘寶可能用不了像谷歌那樣多達百萬臺的機器,只使用十萬臺機器就足夠了,但是這也是一個聚沙成塔的過程,把眾多的廉價的服務器整合起來去做一件事情,這就是云計算的第二條路徑。
第三條路:這條路徑的發展是源于在過去的十幾年間企業內部在硬件方面進行的大量的投資造成的大量賦閑服務器資源。對于企業內部的使場景而言,往往僅有幾千或者幾萬個用戶,即便是大型的國有企業擁有有上百萬用戶,也就僅此而已。和動輒上千萬,上億的互聯網用戶相比,企業投入大量的IT資源特別是硬件資源的情況下,服務的客戶數過少,顯然造成服務器資源的賦閑。面對由此造成的資源利用率低的情況,帶來的挑戰就是如何更多更好地去利用這些賦閑資源。虛擬化技術,最早是IBM在小型機上或者大型機上就實現了,通過虛擬化或者分區技術,可以來解決資源利用率低的問題,虛擬化的技術后來被VMWare發揚光大,在X86的平臺上進行了廣泛傳播應用,第三條路徑其實是就是虛擬化的過程。
云計算經過發展最終沉淀下來的這些技術,對于企業,甚至對于任何一個開展的業務而言,都必不可少的。既需要有效利用資源,將規模從小變大;也需要面向客戶和業務做在線并且有業務質量保證的交易,同時也需要對數據進行大規模處理,進而產生對數據的洞察來支持業務的智能化。
真正能做到這樣的集大成者,實際上是我們現在看到的互聯網架構的云提供商,比如AWS和阿里云。而另外一些模式產生出來的云計算提供商,因為它們沒有這些強大的業務需求推動而產生的技術沉淀,所以很難把這個能力集合在一起。比如面向企業的商用軟件VMWare,雖然其能夠提供虛擬化,但是對于運行在其上的分布式應用,以及對大數據的處理就顯得比較薄弱。而開源世界則通過軟件方式的交互,看起來能夠擁有這樣的能力,比如通過Hadoop可以做大數據,通過OpenStack可以做虛擬化,但是我們可以看到這兩者是實際上存在天然的割裂,無論是在硬件的共享還是在管理層面的融合,以及在業務層面的互相支撐都存在鴻溝。
再回過頭來看,企業在上云的過程中會遇到一些挑戰,企業需要面對非常復雜的云計算路徑。面對這么多的云計算形態,企業在上云時會遇到困惑:到底該怎么考慮自己的云計算?
中國企業上云的三大問題
阿里在和很多企業溝通并且幫助他們進行云計算轉型的過程中,認識到了企業上云面臨的最大的三個問題:
第一,陷入虛擬化的誤區:將虛擬化等同于云計算,沿著虛擬化的這條路走到黑。
第二,缺乏數據中心全局方案:在小規模的應用場景下,進行簡單的虛擬化還是可行的,但是當云變成了企業的公共資產,變成一個平臺的時候,就需要從大規模的角度甚至從數據中心整體的角度考慮,不光要考慮硬件的安裝部署,還要考慮后續的維護和統籌部署,安全問題以及業務快速響應問題。由于缺乏全局方案,所以數據中心變得非常棘手。
第三,難以全面擁抱公共云:由于中國的很多政策,以及很多企業的傳統習慣,還有很多投資方面的資產會限制企業一步到位地去擁抱公共云,很多時候企業希望在自己內部有一朵云,幫助企業既能夠享受互聯網技術帶來的業務升華,同時又能避免一些政策的影響以及數據安全的限制。這些問題是真實存在的,比如說虛擬化這件事情,未來的業務場景會是互聯網化甚至移動互聯網化的,我們不得不把自己開放出來,去迎接更多用戶的訪問。只有與更多客戶發生直接的關聯,才能夠產生對客戶的洞察,這時大規模的訪問以及大規模在線交易將成為必然。另一方面制造業設備,運輸業的交通設備和其他電子設備等都在升級改造成為智能設備,這些設備之所以智能的前提條件就是它能夠將數據送回來,讓我們加以利用,這就構成了另外一個維度的大規模,這就是互聯網的連接的大規模和物聯網信息處理的調度大規模。
對于第三件事情,還有重要的一點是:當客戶的行為數據和產品產生的數據都回到我們手中的時候,應該如何去使用這些數據?我們需要使用它們產生智能來指導業務,比如淘寶體系內,對于6億用戶,100億商品,依靠傳統方式手工去推薦基本上是一個不可能的事情,只能依靠人工智能對數據的挖掘,靠商業的智能在100億商品和6億客戶中做推薦。雙十一900多億的營收,有300多億的超總營收三分之一是來源于智能推薦,這也導致一個3萬人的企業產生了3萬億的這樣龐大的經濟規模。
企業上云的最大障礙
未來企業做大規模云計算的時候,會遇到一個很大的障礙就來源于數據中心。在傳統企業中構建數據中心往往采取使用復雜的硬件做集成的方式。這些異構的硬件產品在小規模的單系統情況下,耗費一些時間去集成運維,系統所提供的可靠性保證還算是可以的。但是如果將全公司成百上千個業務都運行在同一個系統上面的時候,靠簡單硬件的高可用已經不足以承載,因為在5000臺機器的規模下,每天都有超過10臺硬盤的損壞,以這樣維修的概率,如果不以軟件的方式和智能化的方式加以解決,完全靠硬件的集成方式,是無以為繼的。
更可怕的是對于這樣一個復雜的集成工程,從采購到建設,將會經歷一個漫長的的周期。這樣做云計算反而制約應用的發展,因為過去一個系統采購一套設備,還是等得起的事情,但是當幾千個應用都需要等待這個云平臺的建設來開通的時候就是個等不起的事情了。
安全同樣也是,政策法規、信息安全的一些隱患、現有系統的投資等等問題,都導致企業不可能一步就走到公共云上去。在這樣的情況下,企業要解決這些困惑,要上云該怎么辦呢?
阿里巴巴作為一個企業,我們也親身經歷過這樣的過程,而也把這個過程獲得的收獲總結成公共云,并且服務了眾多的小微企業。現在我們也嘗試用混合云的方式服務大型企業。阿里云是怎樣發揮自己的特長去幫助企業的呢?阿里云能幫助企業解決剛才提到的一個比較嚴重的上云障礙。可以用數字來證明我們真正做到了,雙十一是對我們業務的強大的挑戰,但對于技術而言,雙十一也是孵化新技術良好的土壤。通過3億用戶同時在線,每秒產生14萬筆訂單,進行8萬多筆支付交易的強事務處理的場景,以及每天要消化掉200PB的數據,產生對于客戶的洞察,進而使智能化營銷和智能化推薦形成閉環。
我們孵化出來了以淘寶體系為核心的分布式架構,也孵化出來了類似于谷歌那樣的大數據處理的平臺。這些都是從經歷十多年的艱苦卓絕的斗爭中積累下來的。
淘寶超大規模在線交易業務催生強大的分布式應用架構
2003年開始的時候,淘寶只是一個非常簡單的網站,一個現在大家都可以做的LAMP架構的網站。但是到現在已經經歷了5個階段,通過不斷解耦,通過分布式架構的1.0,2.0,3.0這樣的逐步演進,我們已經能夠做到把交易,消息以及數據庫都完全做成分布式的。也就說在數據層面,應用層面,進入方面和查詢方向,全都以分布式的結構來搭建系統,使得整個系統不存在性能以及擴展的瓶頸。
讓每個企業都可以打造淘寶般強大的交易應用
我們的架構總結下來是這樣的,全分布式的體系,訪問層,應用層和數據層都是分布式的,這使得核心系統也是分布式的。為應對大規模的挑戰,我們在前端通過CDN把內容緩存在離客戶最近的地方來提高客戶體驗。在2015年的時候,我們將這個架構變為產品,讓任何一個企業,哪怕是小微企業也可以構建像淘寶一樣強大在線交易系統,幫助這些企業在做“互聯網+”轉型以及業務轉型的時候獲得最大的技術基礎。
阿里大數據發展之路的三次突圍
能夠把云計算的三個方向整合到一起的另外一個方向就是大數據的處理。阿里云的大數據處理也是經過了從2009年到2013年這五年的孵化,在2009年的時候,我們還是亞洲最大的Oracle集群,但是還是已經無法承載飛速發展的業務。
于是我們選擇了3條分支路徑去探索后面的路,第一條路徑是用商業的Greenplum來替代分析型數據運算;第二條路是因為擔心Greenplum不靠譜,我們也使用Hadoop做類似的事情。第三件事情,就是啟動了飛天操作系統的研發,目標是打造一個屬于自己的大數據平臺。中間的歷程非??部溃?010年的時候,Greenplum這條路因為規模和可用性的問題以及計算準確性問題被放棄,2013年的時候,Hadoop平臺也因為數據中心規模擴展不上去和安全管理以及權限管理和資源管理等一系列問題,以及我們與社區之間和這些社區背后的商業利益群體之間的斗爭導致不得不放棄這套體系。
飛天涅槃
最終我們使用自主研發的飛天操作系統將五千臺機器整合到一個大平臺,用飛天操作系統能夠分布式的部署到異地的多個機房的能力實現了大數據計算和存儲能力。飛天操作系統幫我們真正實現了夢想:把三個云計算方向整合起來,提供通用的計算能力,提供一種足夠便宜足夠強大的計算能力。
通過使用安裝了Linux系統的五千臺相同的計算機,通過飛天的分布式文件系統,整合成為一個分布式系統?;?00個PB的存儲和10顆CPU,還有這1000TP的內存以及它們之間網絡的服務,得以開通了三類服務。
第一類服務:彈性計算,就是應對虛擬化的服務,但是它不只虛擬化,彈性計算可以做計算虛擬化,存儲虛擬化,可以提供更加強大的計算環境;
第二類服務:提供淘寶這樣強大的分布式應用中間件來幫助企業打造分布式應用;
第三類服務:大數據處理和數據智能的這些業務,這些業務都是依賴于我們的大數據處理能力進行的。
強大的數據處理能力進一步推動了智能業務的高速發展
通過飛天系統成功地將三種云計算以及云計算路線整合到一個平臺當中,有了這個平臺的支持,才使得整個企業的智能化得到了長足的發展。在智能化發展過程中,我們基于這些計算能力,逐漸地壘高了技術和模型的儲備以及對數據應用的儲備,一層一層地從分析工具到應用引擎再到解決方案,支撐了阿里巴巴整個智能化的人力資源,智能化的安全管理,智能的物流客服以及智能化推薦,這些也支持阿里巴巴整個集團業務不斷前進和發展。
惡劣的互聯網安全環境下十年攻防鑄就了強大的云安全
在這個的過程中,阿里巴巴作為一個互聯網公司,在快速發展業務的同時也在遭受世界上最多的互聯網攻擊。真正的統計數據是,我們每天會防御2億次暴力破解,2000萬次Web入侵,超過1000次DDOS拒攻擊,在這樣惡劣的環境下,我們用10年的時間產生出一整套安全體系和服務產品。這個產品從感知態勢就可以知道,哪些壞人,哪些惡意的行為在哪里發生,以及他們用了什么樣的服務器,誰是主控,對我們在進行什么樣的探索行為,背后的人是誰,他的身份證號碼是多少,這些東西,我們都通過感知的基礎之上進行捕獲。基于感知的基礎就可以做到知己知彼,才可以百戰百勝,戰勝敵人的同時對自己進行保護。我們的產品服務有網絡層面的保護,也有服務器主機層面的保護,更多的會上升到業務層面的保護以及對于數據的防護。
舉個態勢感知的一個例子,雙十一當天,有很多機構和競爭對手在對我們發起攻擊。這些攻擊行為來自世界各地,來自機器和人。通過對其進行追溯,我們構建出了一套以大數據為核心的安全體系,圍繞著網絡,應用數據,形成了各個維度的全鏈路的閉環式的聯動安全體系。
這套安全體系,不僅在保護著我們自己,同時也在保護阿里云上100多萬的企業用戶,幫助他們修復每天6000多次的高危風險,阻礙1000多次DDOS攻擊,攔截2000萬次的Web滲入和2億次主機暴力破解,為阿里云百萬客戶保駕護航。
大規模數據中心運營沉淀的整體數據中心方案
對于從用戶提供的服務中沉淀下來的能力,用一句話總結就是:軟件定義數據中心。在如此大規模的情景下,我們沒有辦法靠傳統方式去堆疊硬件,去做集成和做分段維護,我們必須要有新的方式:基于最簡單最普通最標準化的硬件構建底層,然后用飛天操作系統將幾千臺機器整合成一臺機器,在其上為大家提供軟件定義存儲的服務??蛻粜枰獙ο蟠鎯?,阿里云就提供對象存儲,無論如何一定會解決客戶的存儲問題。
軟件定義網絡的服務,需要安全網絡VPC,需要負載均衡和高速通道,阿里云都可以幫用戶提供,不需要客戶去獨自支撐這樣的服務,也不需要客戶再去手工操作。之后再將安全包括剛才提到強大的云盾,安騎士態勢感知作為一個防護體部署在數據中心之上。
有了這樣的軟件定義存儲,網絡和安全之后才算是提供了真正的彈性計算。
有了阿里云自主研發的這些技術優勢,才能夠支撐我們在全球快速地部署云計算業務,并且快速穩定地運營云計算業務。因為這些特點,阿里在公共云上有了很大的突破,阿里公有云達到了150萬用戶和200多萬應用,這些都承載在我們云服務的資產之上,使用了彈性計算,中間件,大數據的存儲計算,智能化的應用開發的能力以及安全和監控云服務。
以融合云 : 專有云 + 公共云 為企事業單位提佳上云最佳路徑
考慮到國內的一些實際情況,一些企事業單位上云遇到了很多痛苦和困難,我們就把軟件定義數據中心,大數據計算的能力和分布式應用的能力作為一個“三位一體”的解決方案,通過專有云的形式,部署到企事業單位的體系內,幫助企業單位去享受互聯網技術帶來的賦能。同時也解決企業不能使用公有云的困惑,進一步我們發現企業還是需要“互聯網+”的,這時候我們就以混合云的方式解決問題。企業內部在成員企業和總部內部署自己專有云,作為自己集中化演進的過程,通過阿里公共云的VPC資源與專有云進行打通,為企業提供快速解除“互聯網+”的通道,這樣的方式稱為混合云。
混合云有很多實際的落地實現,舉個例子:中國石化在自己機房內建設了一個私有云,同時在阿里云公共區域也申請了幾百臺虛擬資源,彈性計算資源和分布式架構資源,它的公共云承載了面向客戶的電商業務以及對外其他業務,在專有云上承載了智能物流,智能煉廠,智能油田,大數據安全以及企業內部安全的一些應用。
這一套體系中,應對未來物聯網飛速也有一個專門的參考架構:實時的數據上報,將數據快速的沉淀到阿里云的離線計算平臺當中,總結出預測性的模型,在實時的流量計算服務單元里面加載,進而幫助我們進行實時的智能判斷,然后同時通過數據存儲單元和數據轉換單元實現智能化和圖形化的應用。
這里的一個應用例子:威派格智慧供水業務,它實現了TB級的設備時序數據在日常監控,歷史情況回溯,和時指標統計,我們的架構應用于在這個企業所管理水房,泵房以及設備的故障規則預警與智能故障預測等多個應用場景。
阿里人工智能的未來
基于整個大數據平臺之上,未來的發展方向是人工智能。智能上一些新的技術往往從娛樂方面開始的,阿里云也在娛樂端做了一些人工智能的嘗試,阿里云小Ai在歌王挑戰中準確預測到了前三名選手的順位,幫助我們證明了在阿里星球強大的數據支撐下,用500萬首歌曲訓練后得到的強大預測能力。只有強大的計算能力支持才能開展人工智能這個防線的探索,而這只是開始,阿里云未來將會針對各行各業開展人工智能的應用。
本文根據阿里云技術專家宋杰在5月17日舉辦的2016云棲大會·武漢峰會上演講整理而成。