云棲大會上放出的觀點成為這幾日行業人士乃至社交網絡上的熱議話題,包括馬云的主題演講。馬云在這場主題演講中,只字未提“阿里云”,但這并不說明阿里云不重要,而是在某種意義上來講,阿里云“從0到1”的階段已經完成了。
在10月13日杭州云棲大會開幕當天,馬云發表了就上一財年致股東信,信中提及,“阿里云承載了中國35%的網站并為之提供云計算和大數據的服務,而截至2016年3月31日的阿里財報顯示阿里云擁有超過230萬用戶,其中云計算付費用戶達50萬。”
從2009年2月寫下阿里云的第一段代碼開始,阿里云上上下下的負責人們就一直在試圖解釋阿里云到底是什么。成立七年的阿里云的業務邏輯是什么?現任阿里云首席架構師唐洪、阿里云資深技術總監李津通過密密麻麻的圖表清晰地做出了解析。
三句話道破阿里云的天機
阿里云的核心人物王堅最近出版了一本書《在線》。王堅自2008年9月加入阿里任阿里巴巴集團任首席架構師,2009年9月創建阿里云計算公司并任總裁,現任阿里巴巴集團技術委員會主席。
王堅和其團隊自主研發的大規模分布式計算系統“飛天”,是阿里云的核心,建立了互聯網規模的通用計算平臺,完成了云計算公共服務的商業化。
阿里巴巴集團技術委員會主席王堅
《在線》一書中,王堅對過去8年自主技術創新道路進行了反思與總結。摘出書中三句話,就能從根本上說清楚阿里云的本質以及過去與未來:
1、從某種意義上來說,“飛天”就是一個操作系統,操作系統最重要的功能就是資源管理。
“飛天”的底層是數據中心,有成千上萬臺通用服務器,每臺服務器都有CPU(中央處理器)、內存、存儲,相互之間用以太網進行連接,這套系統簡單說就是把所有資源抽象成一臺計算機,并通過互聯網提供計算服務。
2、這樣的底層架構與亞馬遜差別很大。
亞馬遜對外提供的每一個服務都會直接對應一個或多個物理集群,比如A集群對于S3(亞馬遜云存儲服務),B集群對于EC2(亞馬遜云彈性計算服務),它的功能和系統計算是垂直的。而阿里云所有的服務對應的都是同一個系統內核、同一套分布式文件系統。也就是說,無論對象存儲、彈性計算、郵件、搜索等,都共用同一個底層。除阿里云外,世界上只有谷歌能夠做到這一點。
3、“飛天”系統是一個規模很大的有機整體。
規模很大帶來的最大挑戰在于這臺“超級計算機”每天都可能發生故障——硬盤會壞、風扇會壞、內存會壞,“可能自己買一臺筆記本電腦用了5年之后依舊完好無損,但是在成千上萬臺服務器的‘飛天’集群里面,硬件故障時時刻刻都會發生。”
再進一步精煉總結的話,如果把全世界的計算資源看成是一臺龐大的虛擬計算機的話,阿里云的核心“飛天”就是這臺虛擬計算機的操作系統,而“內存”、“硬盤”、“顯卡”等都是由巨大的通用服務器集群組成。阿里云除了核心“飛天”操作系統外,還向上提供云服務版本的中間件、安全、文件系統、數據庫以及面向應用的通用API等高級服務。用戶使用阿里云的方法卻很簡單,只需要通用瀏覽器或通用API簡單調用即可。
除了谷歌外,微軟云也是同樣的思路。
阿里云就是這樣一個永遠“在線”的軟硬一體的虛擬計算機,這個虛擬計算機龐大到了每個人都生活在其中卻感覺不到它的存在——當然,這不僅僅是阿里云的終極夢想,亞馬遜云、谷歌云、微軟云三大巨頭都在朝同一個方向實踐。
描述下阿里云的規模:百萬級服務器、單集群1萬臺的“有機體”
既然阿里云“飛天”系統是一個規模很大的有機整體,這個有機體目前到底有多大?綜合今年杭州的“云棲大會”上阿里云提供的各種資料,可以初步描繪出這個有機體的規模:
百萬臺級服務器的連接能力,單集群可達1萬臺的規模,10萬個進程達毫秒級響應;十億級文件數,EB級別存儲空間;全球15個數據中心區域;“飛天”全球用戶數達到230萬,遍布全球200多個國家和地區;提供面向22個行業的108個解決方案。
簡單的對比,亞馬遜云與微軟云目前都是百萬臺服務器級別的規模,亞馬遜云在全球有17個數據中心區域、35個可用區域(AZ),微軟云有34個數據中心區域,而谷歌雖然自身達千萬臺服務器級別但只有一小部分對外提供公有云服務。
按阿里云資深技術總監李津在本屆杭州云棲大會上的說法,從規模來看,阿里云與亞馬遜云已經沒有多大的差距。
飛天系統與PC系統的邏輯對比
因此,在過去的7年時間里,阿里云一直在發布這個龐大體系的不同組件,并且在把不同的組件連接起來形成一個有機體。
眾所周知,傳統操作系統在升級硬件的時候需要重啟系統,而阿里云在升級飛天的時候卻不能“重啟”——這個很好理解,阿里云已經與社會經濟息息相連,必須7*24小時不間斷在線。
另外一個問題是:這樣的一個有“生命”的有機是怎么自我調節、自我平衡、部分組織自我重生的呢?
根據唐洪的介紹,阿里云的生命機理就是阿里云的自動化運維系統“天基”。在“天基”看來,系統里每一臺機器都無時無刻地處在部署、升級、遷移以及各個狀態的轉換中,“天基”在整個系統運行中精準地控制每個進程、每個組件的狀態,從而控制每個系統的狀態。
“天基”采用了一個面向恢復的計算模型。每臺由“天基”管理的機器上會定期向“天基”發送自己的狀態,而“天基”還維護一個系統預期的狀態,“天基”會定期地比較預期狀態和當前狀態,根據其差別來制定出詳細的執行計劃并下發到“天基”的執行AGENT機器上,通過這樣的過程迭代使得整個系統的狀態逐步逼近到預期狀態。
而在離線應用與在線應用的系統資源混合管理方面,阿里云會將離線應用和在線應用放在同一個集群上,當在線應用比較空閑時就將資源分配調度離線應用,當在線應用的負載比較高時就將資源從離線應用“搶占”過來。這樣既可以保證整個系統資源的利用率,也可以確保在線服務的質量。通過這兩個策略,可以將集群中日常資源的使用率從5%提升至54%、將集群峰值的利用率從22%提升至64%。
云的“生命機制”可以概括為從無到有、從小到大。為了保證用戶業務的不間斷以及阿里云的組織更新,阿里云曾經創造了全球首例整體機房帶業務熱搬遷,也就是說,“整個機房帶著用戶不停頓的業務搬遷到新址,形象的說法就是開著汽車換輪子、開著飛機換引擎。”
然而,一旦阿里云的所有必要組件全部都對外發布出來而且已經彼此互連成合體的話,這個有機整體就可以脫離人工的管理,而由機器自治。李津介紹說,目前他的團隊已經在把深度學習等人工智能算法用于阿里云基礎設施的自我管理,由機器自己探測并自動修復故障。
與社會化應用協同進化的邏輯
回顧阿里云7年的發展,還有一個重要的邏輯:不斷用真實世界的應用來刺激阿里云的生長。
阿里云的早期階段,由于大量用戶把自己的應用架設到阿里云上,但早期的阿里云因為經常宕機而導致一片罵聲,可以說阿里云就是被“炮轟”長大的,甚至有一個博客網站專門記錄阿里云的各種問題。
在《在線》這本書中,其實收錄了不少“炮轟”阿里云的報道,包括阿里集團內部也一度因為是否要把核心應用搬到阿里云上而爆發激烈爭吵。
到今天,盡管阿里云依然會出現問題,但出現問題的幾率已經大幅降低。可以說明這一點的就是阿里巴巴正在把自己內部的核心應用、甚至每年的「雙11」這樣的高難度挑戰,都逐漸遷移到了阿里云上。
當一個企業的云服務達到一定規模,產生了巨大的規模經濟效益后,對于其使用者來說,最直接的好處就是獲得了不小的降價空間。阿里巴巴集團2016財報顯示,過去一年里阿里云曾17次下調云服務的價格。
2016杭州云棲大會介紹了杭州城市大腦項目
國內開源界,阿里巴巴也是最大貢獻者之一。在開源方面,本次杭州云棲大會上 AliSQL 正式開放了源代碼的下載。AliSQL是阿里巴巴基于開源數據庫MySQL官方版本的一個分支,應用于阿里巴巴集團業務以及阿里云數據庫服務,目前由阿里云數據庫團隊維護。阿里云在AliSQL上進行了300多個改進,包括針對電商秒殺、物聯網大數據壓縮、金融數據安全等場景提供個性化解決方案。
隨著阿里云在技術上的成熟,現有的阿里內部應用以及社會上的應用已經不能滿足進一步“刺激”阿里云的未來成長的作用,如何通過社會化力量來反哺云服務呢?
阿里巴巴在杭州立項的“城市大腦”是其中一個嘗試。“城市大腦”,主要是把人工智能用于城市治理,成為整個城市的人工智能中樞,讓城市能夠自我調節、與人類更好的互動,交通道路優化與管理是第一個挑戰的課題。
“城市大腦”由五大系統組成——超大規模計算平臺、數據采集系統、數據交換中心、開放算法平臺、數據應用平臺;阿里云的人工智能引擎ET還為“城市大腦”其它四大系統提供人工智能內核。
舉個例子來說,杭州城區內5萬多路視頻攝像頭都將成為這個“城市大腦”的數據來源。從2016年3月開始,杭州交警、城管、建委等11個政府部門和西湖區,以及阿里巴巴、華三通信、富士康等13家企業的上百名人員,聚集在云棲小鎮進行研發。
如此大規模的研發目前取得了一定成果。據悉,9月在杭州蕭山區部分路段的初步試驗中,城市大腦通過智能調節紅綠燈,車輛通行速度最高提升了11%。
除了用人工智能優化和管理城市外,阿里云還在著力解決全社會物流挑戰。阿里云和菜鳥網絡合作推出的中國首個物流云平臺“菜鳥物流云”就是在這方面的嘗試。根據預測,未來的幾年內中國日均包裹量很快突破1個億,無法再依靠傳統的人力勞動模式去送遞包括,必須使用物流云來保證物流網絡高效運轉。因此,菜鳥網絡 CTO 王文彬對媒體表示,未來物流行業的競爭力已經不是單純依靠規模和價格的競爭了,技術競爭將成為關鍵。
目前阿里云平臺上已經出現了單個ISV的年營收過千萬人民幣水平,李津則希望“能在不遠的將來出現過億元營收水平的軟件企業”。而現在,正是企業級軟件與服務創業的好機會,由于阿里云的成熟和230萬使用者,再加上淘寶與天貓上數以億計的活躍商戶,任何SaaS軟件都有機會觸達這些潛在小企業用戶,因此在未來很有可能出現中國自己的企業級軟件巨頭。