目前,大多數人對大數據的概念還停留在:就是海量的數據,PB(1PB=1024TB)級別的,甚至是 EB、ZB 以上的數據,通過對這些數據進行深入分析,就能得出非常有價值的結論,指引企業做出最佳決策。
其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數據分析,是通過提出假設然后獲得相應數據,最后通過數據分析來驗證假設。而大數據不是這樣的,大數據是從收集的海量數據中,通過算法將這些來自不同渠道、格式的數據進行直接分析,從中尋找到數據之間的相關性。簡單而言,大數據更偏重于發現,以及猜測/印證的循環逼近過程。
而大數據的價值體現在對它的分析利用上。一直以來,大數據的瓶頸并不是數據規模巨大導致的存儲、運算等問題,而是在前端數據的收集途徑,以及對數據進行結構化處理,進而引導后期的商業決策中的模型和算法問題。
各個行業都在產生數據,現代社會的數據量正持續地以前所未有的速度增加著。這些不同類型的數據和數據型,極其復雜,包括結構化、半結構化和非結構化的數據。企業需要整合并分析來自復雜的傳統和非傳統信息源的數據,包括企業內部和外部的數據。隨著傳感器、智能設備和社會協同技術的爆炸性增長,數據的類型變得難以計數,包括文本、微博、傳感器數據、音頻、視頻等。