數據是一種連接。它連接4個最基本的象限,時間,地點,任務,事件。我們為什么要說數據會是下一次技術革命浪潮的最重要的指針?大家來看一下,根據美國幾家頂級研究機構的報告,(Gartner,IDC等等),在未來的5年,我們會有40億人通過互聯網產生各種數據,將成就一個4萬億美元的市場,將有兩千五百萬種軟件接入,250億臺各種各樣的設備接入各種數據系統,五百萬億GB的數據產生。
美國數據分析框架和方法論
在美國,已經形成了非常系統的數據分析方法論。 這種方法論在二戰期間就開始行駛,應用到軍事,科技,民生等各個方面。 可以 數據分析分解為幾個步驟 ,大家仍然可以看到,這里各個環節從先到后是以價值不斷提高為條件的。
第一,也是最重要的一點,正確的數據采集,數據標簽方法的實施,對未來的數據分析迅速產生結果有幾何倍數的促進作用。這也是若干企業缺失或者非常忽略的部分。
第二:大數據的工程架構,數據倉庫,分布式計算層面。現在的分布式計算系統,和以往的數據倉庫的整體構架有了很大的分別,這要求我們的IT部門能夠跟上節奏,實施部署新的基于開源的分布式數據技術、例如已經比較成熟的Hadoop,這個技術已經在美國應用了將近10年,漸漸在互聯網公司變成了主流。
第三:響應性分析,這就是大部分企業也許做的最多的事情,就是不斷地用數據回答業務方提出的各種問題,制作簡單的報表,商業智能,BI等等。
第四:診斷性分析,比如說多維度的歸因,積分卡的實施等等。
第五:戰略型分析:競爭趨勢,價格彈性,企業財務營收的判斷等等。 過去企業的高層戰略分析一直被BCG,麥肯錫等公司霸占,但是現在為什么沒有出現在金字塔的頂端呢,就是因為大數據的出現。
第六:預測性分析即對未來的業務進行基于統計模型,機器學習,以及各種大規模模擬和優化的分析。
第七:即達到回到我們剛才說的全數據自動分析和決策。
真實情況下企業數據分析的現狀
我們看一看大多數的企業都是如何完成這些工作的。 您們在座的各位行業領袖,特別是CTO專注技術的,是不是對這個圖比較熟悉。
這不就是企業內部的數據流程圖嗎?如果我告訴您,這張圖是美國漢密爾頓河污水處理的流程圖您會怎么想? 這張圖是把美國一條污染的河變成清水的過程,也非常類似于現在今天數據分析的流程。很多企業內部做數據分析的一個基本的流程正如:很多臟水流了進來,我們需要人力對它們進行各種監控,把他放到一個池子里進行沉淀。然后我們做各種清洗、聚合、再清洗、再消毒,再傳輸,一步一步,美國做過一個研究,真正從數據收集到最后數據的產生有用的商業價值的過程,需要三個星期到五個星期。大家想想,每做一個很簡單的決策,需要三到五個星期的流程,這是多么痛苦的過程。未來的企業如果要在數據戰略上成功,必須能夠有能力迅速的把污水變成清水的能力。
大家再來看一看,真正產生的價值的部分都在這個金字塔的上端。而根據美國白宮的首席數據科學家DJPatil的一份研究報告,90%的數據工程和分析師的時間是放在數據收集和清理部分,只有10%左右的資源放在能夠產生大量商業價值的工作上。在傳統意義上來說,整個的數據分析是由若干的部門按照順序處理,這樣效能是非常緩慢的。大家講大數據,數據是從數據標簽的采集開始的,一般都由前端工程人員實施,然后數據傳輸的工作由IT來管理,ETL一般由企業內部的數據倉庫或者數據平臺的團隊負責,BI(商業智能)部門在分析部或者存在于業務部門之中,然后我們還有各種商業分析師,統計學家參與其中,這個運行框架體系因為各個部門參與的人非常多,流程很長,大量降低了效率。特別是站在技術先頭部隊的互聯網企業,做過各種嘗試,比如想打破這個僵局就要對各個功能性部門進行整合,但是因為功能性的部門要求人員的能力和經驗有千差萬別的需求,造成了懂業務的部門很難真正理解技術,懂技術的部門又沒有沒有足夠的精力完全理解業務部門五花八門的需求,這樣就產生了若干決策環節的緩慢與低效。為了解決不斷增加的需求,企業內部需要內建和定制化各種IT系統,這種定制化造成了企業內部各個部門形成了若干數據微型小島,若干企業數據孤島進一步增加IT部門的工作負荷、即對各種內部定制化的系統進行數據整合從而進行各種統一的數據決策。短期之內這種定制化的數據整合貌似解決了企業的信息決策的問題,但是在長遠上看會甚至進一步拖慢企業決策速度。 請看這張數據分析金字塔圖,在過去若干年里面,我們發現大數據分析真正產生價值就是上面10%的投入時間,會產生超過90%甚至超過90%的價值。但是他如果沒有時間和沒有資源做下面90%的工作,就不可能產生任何的價值。包括銷售的管理也是一個數字驅動運營化。
中國今天飛速發展狀態下,我們要問問自己,我們的企業是否每一家都有需要內建一個“污水處理廠”,或者重復開發和部署那么多種軟件來為實現企業分析服務。今天我們面前的一個機會,就是如何用非常有效地采用先進的方法越過各種技術和管理鴻溝,讓我們企業變得更有效率。而且人口紅利的減少,企業增加效率就是我們要做的最重要一件事。
構建數據驅動閉環
如何提高數據分析,以及運營決策的規模和效率?
主要的手段,就是要對現有的業務的數據分析流程進行大規模的簡化,從而達到端對端的整合,讓決策分析系統趨于閉環。這種數據分析閉環的速度基本上等同于企業決策速度。企業大數據分析閉環至少要具備兩個組成部分,第一部分:業務端的參與度,第二部分:技術端的實施。這個決策環業務端外部參與越多,技術端內部實施越少越快,那么效能就越高。如何理解呢,在美國最新的權威機構的研究資料中提到了下一代數據革命中的影子CTO的概念,即IT部門應該成為企業軟件的外部管理者,而不是內部執行者。而且美國的云端SaaS軟件,也就是把信息決策的功能放在云端從而跨越過若干IT的冗長流程和技術鴻溝。這已經在硅谷若干引領潮流的公司中有了很好的詮釋,比如Salesforce,LinkedIn(領英),Facebook(臉書),Uber(優步)以及Airbnb等一流公司的各個部門都越來越多的采用采購基于SaaS的各種解決方案,而不是全部自建得到了充分驗證。
GrowingIO.com,我們關注如何利用企業的移動互聯網數據,希望我們做的數據分析產品能幫助企業把90%的數據分析工作完全自動化,彌補分析師資源的不足,能夠幫助幫助企業把幾個星期的信息決策變成幾分鐘內可以做的決策,變成很多員工能夠利用數據驅動來做決策。從而大幅度的增加運營和決策的效率。讓互聯網企業能夠有更多的時間優化他們的業務,更好的服務于他們的客戶。