在2013年大數據全球技術峰會上電子科技大學教授周濤教授提出了大數據發展的三個階段。
大數據1.0:企業利用自身數據對業務進行優化。比如老板要看的各種報表,各種CRM系統,這屬于數據使用的最初階段,當然也有企業不用數據。
大數據2.0:企業利用外部數據對業務進行優化。比如銀行評估信用體系還會用到互聯網行為記錄,今日頭條的推薦還會用到微博的數據。在互聯網橫行的這個時代,到處都在談跨界,大數據的一個重要特性就是消除行業的壁壘,用數據連接各行各業。當前已出現數據交易,數據交換等各種商業現象。
大數據3.0:當數據交易,數據交換規模擴大化,相關法律法規趨于健全,處理分析數據的工具更豐富,企業都可以將內部數據包裝成產品對外進行服務。比如百度上線的API STORE 就是數據交易的一種方式,上面有各種天氣數據、金融數據、地理數據,按照使用頻率進行付費。只是現在提供這些服務都是當前使用大數據比較前沿的企業,這個是有平民化趨勢的,只要你有與眾不同的價值數據就能變現。
個人比較認同這個大數據發展的趨勢,大數據3.0時代實際上就是消除企業間的數據孤島,讓各式各樣的數據可以協同發揮價值。搞清楚大數據未來發展方向,我們再來談談目前大部分企業面臨的大數據困境--數據孤島。
企業發展到一定階段,出現多個事業部,每個事業部都有各自數據,事業部之間的數據往往都各自存儲,各自定義。每個事業部的數據就像一個個孤島一樣無法(或者極其困難)和企業內部的其他數據進行連接互動。
我們把數據孤島拆分成兩類:物理孤島和邏輯孤島。
物理孤島:數據物理上的孤立,各自存儲,各自維護。這樣就會出現重復造輪和資源浪費。每個事業部都需要維護一套存儲系統,各個事業部申請的機器資源都是富足的,每個事業部都各自配備一個專門的負責人。每個事業部都把數據采集、存儲這個活當成是一個累贅、苦活、臟活,因為他們的kpi不在這邊。當需要進行跨業務的數據合作時,往往要進行大量的數據遷移、拷貝,大部分的人力資源都耗費在數據準備階段。
邏輯孤島:數據邏輯上的孤立,每個事業部都有自己的數據規范,站在各自角度對數據的理解和定義,往往會出現相同的業務id、用戶id有不同的定義。當需要進行跨業務的數據合作時,往往會發現溝通成本極高。
企業內部的這種孤島現象是普遍的存在的,特別對一些集團化企業孤島效應更是明顯。未來大數據的發展是要消除各行業的數據孤島現象,創造出各種渠道、模式讓數據協作的更好。不管從大時代的角度,還是從發揮自身數據的價值角度,我們都需要去積極改變這種孤島現狀。
消除物理孤島:統一采集、集中存儲、開放計算。
消除邏輯孤島:制定數據規范、定義數據標準、建設維護元數據。
讓數據:易采集、易存儲、易理解、易處理、有價值!
我們將在后續的文章中介紹如何具體實戰,消除企業內部的數據孤島現象。