大數據和云計算硬幣的正反面
“大數據也需要云計算這個平臺,這是一個硬幣的正反面。”阿里云總裁王文彬(花名:菲青)與媒體交流時表示。這幾年IT行業發生了翻天覆地的變化,直到現在大家依然在談論云計算。這云概念出現當初,業內不斷傳出質疑的聲音,隨著各大云服務廠商的努力,現在各行各業都已經開始接受了云計算服務。2014年7月,阿里云ODPS項目正式對外開放。
伴隨著互聯網與移動互聯網的相關技術不斷成熟,云計算開始被市場接受,海量數據大潮來襲,廠商和企業紛紛看到了大數據的前景,我們現在已經生活在一個數據的時代。
傳統IT已經被顛覆
阿里云從2009年開始在云計算服務方面進行研究到目前已經有五個年頭了,這五年中阿里云突破了各種各樣的技術難題,從去年的5K集群到今年的ODPS,阿里云已經成為云服務產業中的領軍人物。在阿里云看來,云計算和大數據是不可分割的,就好比一個硬幣的兩面,精準的大數據分析依賴于強大的云計算平臺。
阿里云總裁王文彬表示:大數據和云時代的到來顛覆了企業傳統IT架構,企業IT進入了云服務+數據的時代。傳統IT還存在于購買硬件與軟件的基礎上,而云服務將企業IT變為按需購買,從針對硬件與軟件的購買模式上轉變為對服務的統一購買。隨著移動互聯網加互聯網的來臨,整個模式現在是一個翻天覆地的改變。
2大數據帶來的改變
大數據帶來的改變
大數據已經趨于平民化,花個幾百塊錢,人人都可以使用大數據服務,玩轉大數據已經不再是大企業的專屬技能了。經過五年的積累,阿里云計算發布核武器級別的大數據產品——ODPS。通過ODPS在線服務,小公司與小團隊可以對擁有的海量數據進行快速分析挖掘。阿里云總裁王文彬(菲青)表示,ODPS會改變整個中國,不論云計算,或者整個大數據的里程碑,所以我們自己一直體會到這個東西。
到底什么是ODPS
簡單來說,ODPS(Open Data Processing Service)是一項Web服務,大家不用花大錢建數據中心,就能分析海量數據。我們測過,100PB的數據任務可在6小時內跑完。這個數據量相當于1億部高清電影。
如何讓數據產生價值?先得擁有大規模處理能力,然后才是挖掘、算法和分析。傳統的做法是這樣的:租個機房,買一堆昂貴的設備搭建數據倉庫,再請一幫技術人員來維護運轉。一旦觸發bug,或者當數據總量超過100TB時,你的工程師們可能會被這些麻煩搞崩潰。
Hadoop開源系統很偉大,大大降低了成本。阿里是中國玩Hadoop玩得最好的幾家公司之一,Hadoop支撐了淘寶、支付寶早期業務的快速發展。不過,自建一個像樣的Hadoop集群,得百萬起步資金,專業的Hadoop人才更是稀缺。門檻還是太高。
ODPS到底能做些什么
在國內,說得再好不如有個好的案例。ODPS已經在阿里內部進行了大量的使用與測試。在阿里內部,第一使用ODPS的是阿里小貸,阿里小貸每天得處理30PB數據,包括店鋪等級、收藏、評價等800億個信息項,運算100多個數據模型,甚至得測評小企業主對假設情景的掩飾和撒謊程度。經過長期的測試,ODPS幫助小貸完成了大量的數據計算與分析的工作,從而掌握正確的用戶信譽度。
在未來,人們申請貸款的時候機器就可以完整個流程,根據大數據分析得出的個人信譽度來自動完成相關的信譽評估。
公共領域的數據挖掘,可以用ODPS嗎?當然!結合中國氣象局的精準預報數據,高德地圖不久后就能告訴你:"前方道路已嚴重積水,您的車輛駛入可能會遭水淹,建議繞道行駛。"如今,每盒藥品上都有一張電子身份證,從生產、流通、儲存、配送、銷售到使用,全過程的數據都跑在ODPS上,一旦發現問題藥品,監管部門可以立即采取措施。我們期待未來每一桶油、每一道菜的數據都跑在ODPS上,食品安全問題需要通過創新的方式來解決。
3探秘阿里云的御膳房與登月計劃
探秘阿里云的“御膳房”
基于ODPS,阿里為第三方軟件服務商和品牌商提供大數據計算、挖掘、存儲的云環境開發平臺,構建阿里數據生態。通過御膳房數據市場,數據消費者與數據提供者可以安全地交易、使用海量數據,實現數據價值。
1.豐富的淘寶數據。目前御膳房已開放商品、商家、客服績效、品牌四大主題數據,后續會繼續開放行業、競品等主題數據;同時開發者也可以將個人數據上傳使用。
2.指標標準可靠。開放共建的聚石塔數據標準聯盟,御膳房提供完善準確的基礎指標定義,計算口徑,檢驗工具等,確保數據標準、唯一可靠。
3.自助計算。強大穩定的計算能力,提供離線分布式計算平臺及強大的算法環境,自主提交計算任務,自主開發模型挖掘數據價值,大數據計算快速響應。
4.安全的操作平臺。御膳房支持隔離的數據存儲、獨立的數據任務部署,確保御膳房內的數據交易與數據開發安全防泄漏。
5.靈活數據接口。開發者可根據需求靈活定制API,數據輸出符合TOP API規范。
6.大數據挖掘工具。御膳房提供R、Python、MySQL在內的主流大數據挖掘工具,支持模型研究與快速迭代試驗,提升數據價值。
阿里內部的登月計劃
2013年10月,為了融合阿里小貸和支付寶的數據,支付寶希望ODPS團隊協助他們搬家,將支付寶數倉業務從Hadoop機群搬到ODPS上,登月1號項目啟動。2014年5月,登月1號項目順利成功,小微金融服務的全部數據業務開始基于ODPS發展。
在2013年底,受到登月1號項目的啟發,阿里數據平臺團隊聯合技術保障部和集團各事業部,開始了一系列宏大的登月計劃,致力于將搜索、廣告、物流等多個BU的數據統一,未來ODPS將成為承載阿里集團全部數據的統一處理平臺。“登月計劃”共計劃了20多個項目,涉及阿里巴巴和小微金服所有的事業部,覆蓋集團全部數據人員,其牽扯人員、資源之多,在集團內部罕見。
從Oracle到Hadoop,阿里云解決了海量數據如何存儲和分析的問題,阿里的數據業務不再受制于規模的瓶頸;從Hadoop到ODPS,更是一次質的飛躍,為后續大數據業務的開展掃清了障礙。