大數據對很多人來說意味著許多東西,但它的影響到底有多廣?想象一下大數據的這些特性,以及將它拼接在一起的大師們。
不再僅僅是一個流行詞
大數據,無論你如何定義它,都已經被大肆盛贊過,也被惡意中傷過。它對很多人來說意味著許多東西:對科學家和零售店主來說是一種福利,同時也是應對大量隱私和安全威脅時的一種可用技術。
無論是救世主還是騙局–甚至可能是兩者的結合-,大數據仍在權威人士、預言家、營銷者和安全愛好者中間成為一個流行話題。它的非官方定義也在逐漸演變。那么,它到底是什么呢?Wikipedia(維基百科)的定義開了個好頭:“任何數據的收集,數據的數量如此龐大、形式如此復雜,以至于很難采用手上的數據管理工具或傳統的數據處理軟件進行處理”。
但是,當數據分享設備呈幾何級數增長的時候,管理大批量、各式各樣、高速(經典的3V定義)涌來的數據集所面臨的挑戰內容正在改變。這些設備,我們統稱為物聯網(IoT),包括機器傳感器和面向消費者的設備(例如相互連接的恒溫器)、電燈泡、冰箱和可穿戴的健康監測儀。IDC預測IoT(物聯網)市場將在未來數年爆發式增長,從2013年底的91億部安裝設備增長到2020年的281億部。
對大數據的有用洞察可以幫助企業獲得很多潛在的好處,不僅是可以銷售更多地產品和服務,還能更好地管理健康、阻止假藥泛濫、追蹤恐怖分子,甚至可能跟蹤你的通話記錄。因此我們知道,大數據并沒有天生的好壞之分,重要的是你怎么用它。
具有諷刺意味的是,無論大數據在增進人類經驗方面的潛力有多大,它通常還是很難收集、篩選、分析和解釋來獲得那些珍貴的思考和見解。這個幻燈片審視了大數據面臨的挑戰及其應對能力。確鑿的事實會讓你感到吃驚。我們該有什么樣的期待?好吧,看起來Hadoop這個領先的大數據平臺的未來一片光明。數據科學家和相關的大數據專家們應該在來年獲得收入豐厚的工作。
業內人士已經預計熱門詞“大數據”將逐漸淡出。Hortonworks總裁Herb Cunitz在2012年12月的一篇博文中寫道:“終究全都歸于數據。大數據和對這個空間的所有預測都將瓦解,被分析師和所有那些緊隨其后的人(包括很多“大”供應商)導向“數據管理””。
Cunitz可能過早地預見了“大數據”的終結,但他準確地指出:終究全都歸于數據。只有用于管理的工具將要改變。現在,請深入研究我們的幻燈片,并觀看一些展示的統計分析和研究報告。
有多少數據被忽視?
根據Forrester公司最近的一項研究,大多數公司都預計它們分析了大約12%的現有數據。這是好還是壞?好吧,這些公司可能會錯過隱藏在它們忽視的88%數據里的洞察和思考。或許它們明智地避開了資源耗竭、試圖將海水煮沸的戰略。Forrester認為,分析工具的缺乏和“強制性”的數據孤島是公司忽視自己絕大部分數據的兩個原因,原因還包括一個簡單的事實:對公司來說,常常很難判斷哪些信息有價值,哪些信息最好是置之不理。
大數據暴增
瘋狂的大數據對擁有一定技能的技術工人來說是個利好消息。按照Dice的說法,在一個技術和工程師專業人才網站上,對數據專家的需求呈猛增的態勢。該網站4月份的報告中提到,NoSQL專家的職位發布數量比上年增長了54%,“大數據人才”的職位則增長了46%。類似的Hadoop和Python人才職位則分別增長了43%和16%。當然,這跟數據安全專家的職位發布比起來是小巫見大巫了,根據一項令人印象深刻的統計,后者在過去的一年里飆升了162%。
大數據到底有多大?
數字世界的體量將在僅6年內從今天的3.2ZB增長到40ZB(1ZB大致相當于10億TB)。Hortonworks公司CEORob Bearden 在加州圣何塞2014Hadoop峰會的主題演講中說到:“我們十分興奮地看到身邊的數據數量在爆發,企業數據的數量從現在到2020年將增長50倍。最重要的是,這些數據的85%來自全新的數據來源”。Bearden指出,這些來源包括移動設備、社交媒體和聯網機器生成的數據,對全球的企業來說,既是挑戰也是機遇。