阿里云計算最重要的一款產(chǎn)品——ODPS,正式開放商用。從今天起,花個幾百塊錢,人人都能來玩大數(shù)據(jù)。
簡單來說,ODPS(Open Data Processing Service)是一項Web服務(wù),大家不用花大錢建數(shù)據(jù)中心,就能分析海量數(shù)據(jù)。我們測過,100PB的數(shù)據(jù)任務(wù)可在6小時內(nèi)跑完。這個數(shù)據(jù)量相當(dāng)于1億部高清電影。
圖片說明
工業(yè)革命后的200多年里,人類對物理資源的利用登峰造極。第一次信息革命過去70年了,我們對數(shù)據(jù)資源的利用卻只是剛開了頭。Google、Facebook、阿里巴巴等先行一步,摸到了大數(shù)據(jù)的冰山一角。然而,人類擁有的大部分?jǐn)?shù)據(jù),還無法產(chǎn)生價值。
如何讓數(shù)據(jù)產(chǎn)生價值?先得擁有大規(guī)模處理能力,然后才是挖掘、算法和分析。傳統(tǒng)的做法是這樣的:租個機(jī)房,買一堆昂貴的設(shè)備搭建數(shù)據(jù)倉庫,再請一幫技術(shù)人員來維護(hù)運轉(zhuǎn)。一旦觸發(fā)bug,或者當(dāng)數(shù)據(jù)總量超過100TB時,你的工程師們可能會被這些麻煩搞崩潰。
Hadoop開源系統(tǒng)很偉大,大大降低了成本。阿里是中國玩Hadoop玩得最好的幾家公司之一,Hadoop支撐了淘寶、支付寶早期業(yè)務(wù)的快速發(fā)展。不過,自建一個像樣的Hadoop集群,得百萬起步資金,專業(yè)的Hadoop人才更是稀缺。門檻還是太高。
有沒有更好的方案?從2009年初,寫下“飛天”第一行代碼時,我們就堅信這一方案存在。我們用了五年時間,寫下250萬行代碼,終于在自主研發(fā)的“飛天”平臺上成功搭建ODPS。我們把數(shù)據(jù)海洋里的“水”灌進(jìn)ODPS,設(shè)定好一套參數(shù),擰開水龍頭,出來的就是“鮮榨果汁”!
100年前,福特推出了全球第一條流水生產(chǎn)線。一個個零部件扔進(jìn)流水線,90分鐘后,一輛嶄新的汽車擺在面前。不知道福特工程師們當(dāng)時是怎樣的心情。當(dāng)我們擰開ODPS的水龍頭時,感受大抵如此。這個比喻還不完全恰當(dāng),福特生產(chǎn)線只為福特服務(wù),一條生產(chǎn)線也只能生產(chǎn)一種車型。而ODPS任何人都可以來用,水龍頭里流出來的“果汁”,隨著原始數(shù)據(jù)和算法的改變可以千變?nèi)f化。
我們來看看ODPS都可以榨哪些“果汁”吧。
ODPS之前一直在阿里內(nèi)部試用。第一個“小白鼠”是阿里小貸。你見過敢貸1塊錢給你的銀行嗎?如今,超過36萬人從阿里小貸借款,最小貸款額1塊錢,并實現(xiàn)3分鐘申請、1秒放款、0人工干預(yù)。要做到這一點,阿里小貸每天得處理30PB數(shù)據(jù),包括店鋪等級、收藏、評價等800億個信息項,運算100多個數(shù)據(jù)模型,甚至得測評小企業(yè)主對假設(shè)情景的掩飾和撒謊程度。另外,阿里小貸每筆貸款成本3毛錢。什么?你問普通銀行的貸款成本?先乘個1000再說。
華大基因,2003年國內(nèi)抗SARS研究的主力軍。去年,我們邀請華大在ODPS上試了下基因測序,耗時不到傳統(tǒng)方式的十分之一。2010年,歐洲E.coli污染危機(jī),測序和組裝耗時兩天以上。如果用ODPS,只要幾個小時甚至幾十分鐘。一旦未來真有生物危機(jī)爆發(fā),人類可以贏得寶貴的破譯時間。
這么高精尖的領(lǐng)域你可能覺得太遙遠(yuǎn)。說說當(dāng)前最火的世界杯吧。Google拿英國體育數(shù)據(jù)提供商Opta Sports的數(shù)據(jù),在BigQuery上跑了跑,成功預(yù)測了本屆世界杯8強(qiáng)名單。ODPS是一款跟Google BigQuery類似的產(chǎn)品,如果哪位有數(shù)據(jù),也可以來算一算接下來的比賽。
公共領(lǐng)域的數(shù)據(jù)挖掘,可以用ODPS嗎?當(dāng)然!結(jié)合中國氣象局的精準(zhǔn)預(yù)報數(shù)據(jù),高德地圖不久后就能告訴你:“前方道路已嚴(yán)重積水,您的車輛駛?cè)肟赡軙馑停ㄗh繞道行駛。”如今,每盒藥品上都有一張電子身份證,從生產(chǎn)、流通、儲存、配送、銷售到使用,全過程的數(shù)據(jù)都跑在ODPS上,一旦發(fā)現(xiàn)問題藥品,監(jiān)管部門可以立即采取措施。我們期待未來每一桶油、每一道菜的數(shù)據(jù)都跑在ODPS上,食品安全問題需要通過創(chuàng)新的方式來解決。
生產(chǎn)電飯煲的工廠,應(yīng)該跟ODPS沒什么關(guān)系吧?別說,未來還真可能有關(guān)系。手機(jī)、電視、手表、汽車、空調(diào)……這些工業(yè)時代的經(jīng)典產(chǎn)品,現(xiàn)在都變成了互聯(lián)網(wǎng)終端。誰說電飯煲、鞋子、衣服不會呢?如果未來的制造工廠都變成互聯(lián)網(wǎng)公司,數(shù)據(jù)將成為最基本的生產(chǎn)要素。你不懂算法、不會建模、不會分析,沒關(guān)系,那些有數(shù)據(jù)分析能力的公司會幫你做。
眼下,阿里巴巴各項數(shù)據(jù)業(yè)務(wù)都在用ODPS“榨果汁”,比如淘寶在算你最中意哪個淘女郎,天貓在算你什么時候想吃車?yán)遄樱锁B在算卡車走哪條路可能會被雷劈,支付寶在算你何時會從屌絲變成高富帥。如果大家也想“榨果汁”,歡迎來試。ODPS的水龍頭就裝在阿里云官網(wǎng)aliyun.com上,一個月內(nèi)免費。
The World Is Flat. 從某種意義上而言,人人都可以成為BAT,哪怕你的公司只有幾號人。我們希望,在技術(shù)這件事情上,大家變得更加平等!