提到大數據,就不得不提到存儲。我們首先都會將眼睛聚焦大量數據如何存儲的問題上,我們以往都是先存儲,然后再進行回顧式的分析。
對于數據的存儲我們常見的問題,諸如數據如何存儲、數據如何組織、怎樣清洗數據以及怎樣的時間劃分是合適的。盡管這些基于存儲的問題解決了,分析師還要決定哪些數據是已經過期了的。它們可能已經過時了,不能夠用來反映當前環境了,有些歷史數據是不能給我們一個關于未來的視角的。
實時數據分析
換一個思路,我們可以選擇進行實時大數據分析。這樣的話,我們就不用考慮大規模存儲相關的問題了,而改為關心商業數據流量帶寬了。Jeff Bertolucci在Information Week上面寫道,電信公司最早開始使用實時大數據分析來了解當前的網絡狀況。“先存儲,后分析”的方法,在要求實時性的領域中作用可能就不大了。
盡管中小企業可能沒有像電信公司那么大量的數據流,但是他們也應當在投資數據存儲之前,先知道它們需要哪些商業數據。Mary Shacklett在Tech Republic上面的一篇文章中提到,清理歷史數據,然后得出有用的結果的花費很可能已經超出中小企業的預算承受范圍了。從過去中反思學習的確是好的,但是對于中小企業而言,這樣的投資得到的數據分析質量的確還是存疑的。
實時分析的好處
IT專家應當推薦企業走向實時之路,而不要陷入無盡的數據清理之中。實時分析之中往往見效很快,中小企業短時間內就能看到數據分析的好處;而用傳統方式大規模存儲,企業要投入很多資金。實時分析方法還有一個好處,就是讓中小企業能夠了解到哪些商業數據是需要的,因為畢竟不是所有的數據流都要用到商業分析之中。
通過對數據流的檢驗,中小企業能夠看出哪些是有必要進行存儲并回顧的。數據可以在源頭就得到了優化。
由此可見,對于大數據的存儲,首先要從數據的源頭進行優化。數據有多少用處,不在于你存儲了多少數據,而在于你對于這些數據的了解程度。