最后我們發現,原來大數據仍然是“有一種大數據是廠商的大數據解決方案”,仍然是大數據服務商在告訴我們:他們如何幫助我們來做大數據。作為CIO,我們自身的探索在哪里?
郭煒,現易觀智庫CTO,原萬達電商部大數據總經理,這是行業內目前比較罕見的一位90后CIO,當然,由于他自嘲的“人長得比較著急”,無人將他的成就與他的年齡匹配起來。但他的探索一直都在。近日,郭煒將其混合云部署與大數據分析方面的研究與大家進行了分享。
上圖為:易觀智庫CTO郭煒
大數據的三個階段
郭煒將大數據分為三個階段:
第一個階段叫數據倉庫或者BI階段,這個階段起始于做ERP、CRM時建立的數據倉庫,這是大數據的第一個階段;
第二個階段是點擊流分析階段,如雅虎的大數據是將點擊背后的流量分析出來,通過Hadoop平臺,或者其它的新的數據分析技術將點擊流分析出來。
第三個階段是 IoT和O2O時代的大數據,這個階段的大數據不僅僅是原來在互聯網上的數據,還包括線下的一些行為數據,可以用真實的設備,比如智能WIFI,智能藍牙,用這些智能設備去采集所有線下用戶的行為軌跡。比如萬達投入過一些智能設備,可以將消費者線下在萬達廣場里怎么行走的行為軌跡,通過智能設備實時上傳到萬達大數據平臺,通過智能WIFI,智能藍牙,包括一些攝象頭采集消費者的行為,同時結合大家的刷卡行為,便可以將消費者在萬達的消費行為明晰記錄下來。
也就是當個人逛商場,或者線上消費去京東或者上阿里點擊瀏覽網頁一樣,消費者在每個商業區域里停留了多長時間,買了什么東西,吃了什么飯,看了什么電影,所有的數據都能采集上。采集這些數據是為了更有效進行推薦引擎,也就是預測,比如上淘寶,他便能預測你可能喜歡何種商品。
舉個例子,比如消費者逛完商場,剛出電影院,便收到星巴克優惠券的推送消息,剛剛看完電影,可能覺得你會口渴,此時此刻,這兩張優惠券便是你最需要的東西。這個場景的技術實現便使用了SaaS技術。
云和大數據的結合是未來的趨勢
易觀智庫是初創型企業,擁有非常大的數據量,怎么樣用一個最高性價比的方式構建大數據平臺,并最終實現企業目標?目前易觀的大數據資源主要是手機APP,現在已經覆蓋5.4億手機的設備量,監控58萬APP。
在這樣一個大數據情況下,應該建立一個怎樣的數據平臺?既能滿足業務需要又不需要過大的投入。郭煒說:“云和大數據的結合是未來的趨勢。”因為相聯接的所有的智能硬件設備都需要通過互聯網,此外,目前所有的大數據都是基于開源軟件來實現,包括Hadoop等,這些開源平臺能節約成本,但其使用也存在很多問題,因此,需要有非常好的云端平臺能夠直接進行大數據服務。因此,易觀智庫的大數據平臺設計基于上述原則進行。
易觀智庫的混合云大數據探索
易觀將云和大數據的結合分為四層。底層基于AAS和MAS服務,包括公有云服務,一開始就全部實現了基于公有云做的大數據平臺。第二層,PaaS、DAAS及相關的大數據服務。第三層是數據分析,讓所有數據變得容易理解。第四層是相關的業務營銷。
易觀將云和大數據結合后,期望將相關的分析、計算變成一個可理解的結果。因此需要把小數據分析做到極致。先讓人理解大數據的一個結果,然后再去模擬人的決策,再用新的算法模擬人自己的這些步驟,一次一次反饋改進,形成循環。這其間的路徑難點就是先把數據量理解,數據量理解完成后便形成數據規劃。
舉例如下:比如想看95后喜歡網購的手游的狂人,在工作日晚上十點到十二點最喜歡打開的新聞類的APP是什么?這個場景可用于投放廣告的需求,在這個時間有多少客戶究竟喜歡看哪些新聞類APP。如果做這個人群的查詢,需要有 4000多個標簽,5.4億用戶,58萬APP,再加上這些人每天的行為,數據量便無法結算。易觀現在的做法是,構建云的大數據平臺,通過一個MySQL數據庫把數據放到MySQL里面,在網上其實就是Redis,Tomcat等,再通過易觀自有的秘密機制在公有云上便可以實現相關的查詢,以便能滿足業務需求。
上述解決方案的優點是快速部署,快速實現,集中化管理,可提供初級攻擊防護,硬件免維護。但缺點是執行效率過低,單次30分鐘,單價成本較高,年度投入單臺超過3萬。且目前三個知名的公有云服務商,盡管用了這樣或那樣的技術,但是I/O系統也是不足,包括網絡帶寬和CPU性能,目前所有的公有云都是大家共享CPU,因此,總會存在上述問題。
易觀曾從不同公有云上面做了三次遷移,最終確定必須先將性能提高。由于易觀的業務非常靈活,既想它能夠滿足業務,同時又能夠有大數據計算,混合云架構是最好選擇。
其思路是將所有的和大數據相關的技術,包括Hadoop做成一套組件,在此基礎上搭建私有云,將自身的Facebook開源大數據平臺和MySQL數據庫都放在線下,而把所有產品前端的放在公有云上。這樣調整的難點是私有云和虛擬機如何分開及怎么跟公有云打通的問題,最后的解決方法是直接通過光纖,便保證了業務的擴展性。
混合云的異地備份的優點就是性能非常強,云端應用配置靈活,機器非常方便。缺點就是公有云和私有云打通后拓撲結構比較復雜。但能夠既享受原來物理集群的優化,還能享受靈活。
易觀通過上述混合云與大數據的探索,已能成功解決上述95后喜歡網購的手游的狂人,在工作日晚上十點到十二點最喜歡打開的新聞類的APP是什么的難題。