到底大數據是夸夸其談抑或確有其事,業界存在著各種不同的表述甚至是論斷。令人欣喜的是,越來越多的實際案例表明了在大數據中蘊含著巨大的商業價值。但是,人們對于大數據的接受程度和理解程度依然不夠。而且,相關的概念、工具和方法論也有待進一步成熟。
有些人從規模的角度來看待大數據,比如PB(petabytes,相當于1024TB)、EB(exabytes,相當于1024PB)和ZB(zettabytes,相當于1024EB)量級。為了理解方便,1E相當于2的60次方。
如果還不清楚的話,我們可以再舉一個例子來說明–將1個EB的奧利奧餅干(Oreo)堆起來,其高度相當于往返月球19041819次,或是往返太陽48938次。
根據IDC的2012年DigitaUniverse報告顯示:
2012年,全世界只有5%的數據被用來分析
2012年會產生2.8ZB的新數據
數據爆炸主要歸功于PC、智能手機和互聯網的普及,尤其是在新興市場地區
在過去兩年中,來自于監控攝像頭和智能電表的信息使整體數據規模增長了一倍
對于2020年的情況,IDC也做出了相應的預測:
數據總規模將達到40ZB,相當于2010年的50倍
全世界的人均數據量是5247GB
新興市場地區會取代發達地區成為數據的主要來源
作為數據世界的“基礎架構”,在IT硬件、軟件、服務、通訊和專業人員上面的投資將會增長40%。而在諸如存儲管理、安全、大數據和云計算等方面的投入將是增長最多的部分
無論你是否相信以上預計,數據規模的急速膨脹是無可否認的趨勢。但是,單單是規模還不能說明大數據的全部含義–比如當今世界有16盎司容量的軟飲料、2700英尺高的摩天大樓、7磅重的西紅柿和8英尺高的巨人,這些數字雖然很大,但是其含義都很單薄。
在TechAmerican Foundation最近發布的報告《Demystifying Big Data: A PracticaGuide to Transforming the Business of Government》中,大數據被定義為“數據規模、復雜度和類型的急速增長”。從中我們可見,除了規模之外,速度、復雜度和類型也構成了大數據的要素所在。
根據TechAmerican的報告,現有的數據中有15%是結構化的–比如關系型數據庫和電子表格中以行列形式存儲的數據。這也就是說,現在有85%的數據是非結構化的,比如存在于社交網站、音頻。視頻和電子郵件中的信息。對于傳統的商業智能工具(基本上都是針對結構化數據而設計的)來說,處理非結構化信息是巨大的挑戰。
隨便看看現有的論述(無論是技術還是商業方面),基本上都認為今后的數據增長主要來自于移動設備、傳感器和社交媒體。因此,可能結構化數據所占的比例將會降低,而非結構化的比例越來越高–同時伴隨著復雜度和類型的增長。
真正的關鍵不在于技術和數據本身,而是這些新技術及其所催生的數據改變了我們工作和交互的模式 -- 更加緊密和持久的聯系意味著實時的交互模式。僅靠電子郵件進行溝通已經過時了,現在給你發了一個消息之后,我希望得到即時的回復。正如我20歲大的兒子經常對我說的:“爸,現在只有老古董才用電子郵件了。”
實現大數據商業價值的5個要點
通常來說,以往的業務模式是基于歷史數據來決定未來一到兩年內的行為,但是現在則應該是基于過去幾分鐘內的數據來決定未來12到24分鐘(甚至是秒)內的行動。在營銷模式上,以往是基于過去數周或數月內的推廣活動來預測特定人群對產品或者服務的偏好程度,而現在則是基于對客戶個體行為的分析和實驗來為其提供實時的定制化服務(通過各種用戶界面,比如呼叫中心、網站、移動應用等)。可以想見,每個客戶所接收到的東西都是獨一無二的–一旦某客戶接收到了特定的服務或者產品,該服務或產品就不會重復提供給另一個客戶。這才是“大”的真正含義–大數據中的大生意。
對于數據分析人員、IT經理以及整個企業來說,對于大數據,有以下重要的考量和步驟:
在準備行動之前,和管理層及客戶進行充分的溝通,了解業界最新進展以及企業的真實需求
基于大數據相關的新業務模式和新技術,積極推動企業戰略的升級
基于業務戰略和模型,制定相應的數據戰略和監管流程
以可管理的模式來推進創新,比如較小的、短期的和可迭代的實驗和探索,以此獲得易評測和有意義的結果
在探索過程中允許錯誤的發生。不斷從失敗中積累經驗才能提高未來工作的成功率
無論出于什么原因,如果你或者你的公司還未認識到大數據的無窮潛力,Rick Smolan和Jennifer Erwitt的近著《The Human Face of Big Data》可能會對你有所幫助 -- 其中有句話這么說到:“在孩子出生的第一天,人類產生的數據量就相當于國會圖書館的70倍。”想想吧,這得有多少奧利奧餅干。 本文轉自:機房360