關于阿里云技術能力的誤解,很多。
從阿里巴巴的角度,業界對俗稱BAT的三巨頭有這樣的認知:阿里的運營,騰訊的產品,百度的技術。這種認知一度產生了對阿里云的錯誤判斷:阿里云有錢任性,靠的是起步早,規模大。而讓人一度忽略了阿里云的技術。
可是,10月28日,Sort Benchmark在官方網站公布了2015年排序競賽的最終成績時。我發現,阿里云飛天分布式計算系統在其含金量最高的兩項比賽中,打破全部四項世界紀錄。
很顯然,并不是阿里云無技術,而是阿里的強運營掩蓋了阿里云的強技術。事實就擺在那里,你到底要怎么看?
怎么理解SortBenchmark的含金量?
很多人也許有疑問,Sort Benchmark是什么機構?它憑什么可以代表云計算的技術能力?
也許你沒聽過Sort Benchmark,但你應該了解Jim Gray。
這位1998年圖靈獎的獲得者,極具傳奇色彩。作為計算機的傳統主流方向,數據庫只有三位圖靈獎得主,都是大名鼎鼎的人物,開創了屬于自己的時代。三巨頭之一的E.F.Codd于2003年逝世,數據庫之父Bachman也是早早退休,沒成想碩果僅存的Jim Gray于2007年1月28日早上獨自乘船離開San Francisco Bay,去一個叫Farallon小島灑他母親的骨灰,不幸在外海失蹤。
Sort Benchmark,就是是由Jim Gray負責主辦和管理的排序基準評估比賽。該機構每年都會舉辦一次排序基準評估比賽,被譽為計算界的奧運會。所以,很多公司和學術機構都會帶著他們最新的研究成果來參加這個比賽,以評估他們的研究成果。
據了解,Sort Benchmark的排序競賽包含4項比賽,其中GraySort和MinuteSort主要評測計算系統的規模和效率,是4項比賽中含金量最高的兩項。每一項比賽又分通用目的排序(Daytona)和專用目的排序(Indy)兩個類別。
根據Sort Benchmark官方數據顯示,阿里云飛天分布式計算系統分別在GraySort和MinuteSort的兩個類別中打破世界紀錄。
簡單描述一下這兩項排序的概念。其中,MinuteSort,比較容易理解,顧名思義,就是看你在一分鐘內能排序多大的數據;GraySort,則是為紀念Sort Benchmark的發起者Jim Gray而起的名字,它的目標就是評測大規模排序的性能,它的評測單位是TB/min。
要知道,排序是最基礎的數據算法,能夠反映平臺的整體計算性能。Sort Benchmark也是大數據處理能力公認的標準。過去對比Spark 和 Hadoop的效能時,就會在Sort Benchmark上排序的速度最為一個重要的參照指標。
所以,Sort Benchmark的紀錄,意味著在過去一年里,在數據處理的技術上,阿里云已經走到了世界領先的水平。那么,要怎么看阿里云這四項世界記錄的實際意義呢?
連破世界紀錄的意義何在?
第一,阿里云得以為公有云再次證名。
在GraySort通用目的排序測評中,阿里云以15.9TB/分鐘,將這一排序的紀錄提升了3倍多。去年的冠軍Apache Spark成績為4.35TB/分鐘。
去年,Apache Spark基于Spark搭建的系統用了207臺Amazon EC2上的虛擬機,在23分鐘內排序了100TB的數據。去年的冠軍Hadoop用了2100臺Yahoo內置的機器,花了72分鐘,排序速度是Hadoop的三倍。阿里云則讓排序的速度再度快了三倍。
這個紀錄的的意義很深遠。去年Apache Spark,是該比賽歷史上第一次基于公有云的系統獲得了第一。而今年的阿里云也是以公有云系統創造新的記錄,這表示公有云在數據處理方面的能力已經到了世界最高水平,這等于為公有云再次證名。
第二,技術流的強強對話,分量更重。
Sort Benchmark紀錄最大的價值,是與世界上最頂尖的技術公司和機構,在統一的標準下強強對碰,這種紀錄才是真正的計算奧運會。
可以看到,在GraySort被阿里云擊敗的公司包括了去年的冠軍Apache Spark。Apache Spark是個開源和兼容Hadoop的集群計算平臺。由加州大學伯克利分校的AMPLabs開發,作為Berkeley Data Analytics Stack(BDAS)的一部分,由大數據公司Databricks擁有。這是全球最有前途的大數據技術公司。
在MinuteSort通用目的排序測評中,阿里云飛天的速度為7.7TB/分鐘,擊敗去年速度為3.7TB/分鐘冠軍三星。三星這家酷愛全產業鏈的公司,對技術的投入一直巨大,并在2013年開始進軍大數據。
另外,在GraySort和MinuteSort的Indy排序中戰勝的都是BAT中,一直享受技術派名譽的百度。百度也是國內頂級的數據處理公司,大數據一直是公司的核心戰略之一。
在強者如林的競爭對手中,連破四項世界紀錄,這足以讓業界對阿里云的整體印象重新認定。阿里云,不僅有阿里巴巴好的資金支持,優秀的運營團隊,更有領先一步的技術能力。
第三,證明了可以成為DT世界的驅動力
馬云不止一次的提到DT世界,提到阿里是一個數據公司,他甚至認為,未來世界,數據將取代石油,成為整個世界的最大能源。
可是,實現DT世界,需要有兩個前提。一是大數據技術逐漸成熟,并應用于所有行業。二是數據的處理能力,也就是計算的能力足夠強,足夠快。
云計算作為數據世界的根本驅動力,阿里云逐漸成為了馬云實現DT世界最有力的推手。從年中宣布60億投資阿里云,到連續兩個季度財報中,阿里巴巴成長最快的業務。阿里云,賴以成長的根本,并不僅是資本推動的,而是技術推動的。
Sort Benchmark的紀錄,正從側面證明了這一點,使得讓數據的世界,擁有了最快最穩定的數據處理能力,讓馬云DT世界的目標,似乎又近了一步。