今年過年,去一位長輩家拜年,剛好碰見他在研究股票趨勢,閑聊之下,“大數據”,竟然也從他嘴里蹦出來。真是 duang的一聲,把我嚇了一跳。大數據,真不再是只可遠觀,高大上的主了。
大數據雖然不再飄在空中,但對大數據的爭論卻從未停過。
何為大數據?
大數據的概念,喧囂社會之上也有好幾年了。但具體什么是大數據,行業里也是各說不一。大狹義上來講,大數據就是巨量數據,極大量的數據。但究竟是“多大”,才叫大數據呢?也是未有一個統一的說法,一般來說,10T量級的數據量,就可以稱之為“大”數據了。而廣義上的大數據,更多是指包括數據本身在內的,一整套數據處理分析框架。縱觀眾多的何為大數據,小K以為,研究機構Gartner給的定義還是比較不錯的,也是百度百科上采用的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量的、高速增長率和多樣化的信息資產。
這個定義還是比較好的,區分了純數據量論,也比較符合實際項目落地的情況。比如一個客戶終端偏好分析,如果在現有數據、分析模型上,已經可以 99%的機會準確分析出來,那再增加大量的數據去分析,這是毫無意義的,可能由于噪音數據的增加,準確率更低也是可能的,就不應該歸入大數據的范疇,用大數據的方式去處理。目標數據要重質,而不是單純的量。
大數據平臺化
大數據該怎么玩?這也是一個大家熱烈討論的領域。大數據的快速發展、落地生根,可能已經超出了它的最初的含義,拓展了內涵。在數據量不斷劇增,數據資產化的趨勢下,大數據平臺化已經成為業內比較流行的一種建設方式。大數據平臺重在數據的采集、存儲、處理,重在數據能力的提供上,給應用建設提供數據支撐,而不是直接面對最終用戶。如下圖:
大數據平臺解決了在以往技術框架內,面對大量數據時難以解決的數據采集、存儲、處理問題,并根據上層應用需求,提供了數據能力服務,支撐上層應用開發,滿足最終用戶的各類需求。
在此,或許有朋友要糾結于:大數據平臺用什么技術建設比較好呢?目前熱門的hadoop技術?后起之秀spark?還是沉穩的MPP?諸如此類。有什么關系呢?技術是為業務服務的,技術也是優劣并存的,考慮的因素不一樣,技術選型就不一樣,沒有最好的技術,只有最合適的場景。也許,沒幾年之后,又是一片新技術的天下。
小結
根據IDC的研究,從2005年到2012年,全球的數據量翻了27番,約達到2.5ZB,其中僅有25%的數據是有用的,僅有3%的數據貼有標簽能被使用,僅有0.5%的數據被用于分析。大量的數據被閑置,被丟棄,價值被埋沒。隨著技術的不斷發展,數據價值的不斷體現,大數據將會成為推動未來企業發展的重要引擎。BAT知道,全世界也知道。大數據之路,任重而道遠。