自古至今,從未有一個時代出現過如此大規模的數據爆炸。如今的商業世界,已經變成了飄浮在數據海洋上的巨輪,而那些通過大數據能力駛入藍海的企業,將會贏得豐厚的回報。
大數據的特點
對于大數據的特點,業界通常用Volume、Variety、Value、Velocity這4個V來概括。大數據的特點包括:第一,數據體量巨大。從TB級別躍升到PB乃至EB級別。要知道目前的數據量有多大,我們先來看看一組公式。1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB.到目前為止,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB.
第二,數據類型繁多。這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,越來越多的非結構化數據的產生給所有廠商都提出了挑戰。拜互聯網和通信技術近年來迅猛發展所賜,如今的數據類型早已不是單一的文本形式,除了網絡日志、音頻、視頻、圖片、地理位置信息等等多類型的數據對數據的處理能力提出了更高的要求。
第三,價值密度低。價值密度的高低與數據總量的大小成反比。以視頻為例,一部一小時的視頻,在連續不間斷監控過程中,可能有用的數據僅僅只有一兩秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”是目前大數據洶涌背景下亟待解決的難題。
第四,處理速度快。這是大數據區分于傳統數據挖掘最顯著的特征。根據IDC的一份名為“數字宇宙”的報告,預計到2020年全球數據使用量將會達到35.2ZB.在如此海量的數據面前,處理數據的效率就是企業的生命。
還記得10年之前風靡一時的美國情景喜劇《六人行》(又名《老友記》)嗎?在這部美國NBC電視臺從1994年開播到2004年落幕的經典之作中,6位主人公從姓名、職業到個人喜好至今都還能被粉絲們津津樂道。
這部美劇中有一個頗受觀注的傳奇謎團,那就是錢德勒到底是干什么的?--雖然他解釋過很多次自己的工作,但是從來沒有人真正弄明白過他所做的那個全稱叫做“an executive specializing in statistical analysis and data reconfiguration”是個什么東西。
在該劇熱播的10多年前,想要跟一個陌生人講清楚這樣一個與數據統計分析有關的崗位確實不是一件容易的事情,以至于到了《老友記》的最后兩季,“生不逢時”的錢德勒不得不轉行干起了廣告。不過到了今天,錢德勒們的職業卻正變得炙手可熱。
如今,在數字方面拿手,對于數據分析著迷不僅不會讓一個人再成為社會的另類,相反這意味著無數條件優厚的工作機會正在招手。
根據麥肯錫旗下研究部門麥肯錫全球學會(McKinsey Global Institute)2011年發布的一份報告顯示,預計美國需要14萬-19萬名擁有“深度分析”專長的工作者,以及150萬名更加精通數據的經理人,無論是已退休人士還是已受聘人士。
造成數據人才供不應求的一個顯著的背景就是如今“大數據”的爆發正在得到從企業界到政府層面越來越多的重視。
今年2月,《紐約時報》撰文稱,“大數據”正在對每個領域都造成影響,在商業、經濟和其他領域中,決策行為將日益基于數據分析做出,而不是像過去更多憑借經驗和直覺。而在公共衛生、經濟預測等領域,“大數據”的預見能力已經開始嶄露頭角。
一個最新的例子就是Facebook在5月18日的IPO.在5月18日之前,幾乎沒有人敢說自己有把握去預測Facebook上市當天股價的走勢,但是Twitter卻神奇般地做到了。
社交媒體監測平臺DataSift監測了Facebook IPO當天Twitter上的情感傾向與Facebook股價波動的關聯。例如,在Facebook開盤前Twitter上的情感逐漸轉向負面,25分鐘之后,Facebook的股價便開始下跌。而當Twitter上的情感轉向正面時,Facebook股價在8分鐘之后也開始了回彈。最終,當股市接近收盤時,Twitter上的情感轉向負面,10分鐘后Facebook的股價又開始下跌。最終的結論是:Twitter上每一次情感傾向的轉向都會影響Facebook股價的波動,延遲情況只有幾分鐘到20多分鐘。
這僅僅只是基于社交網絡產生的大數據進行“預見未來”的眾多案例之一,事實上“大數據”所能帶來的巨大商業價值已經被人認為將引領一場足以匹敵20世紀計算機革命的巨大變革。
2012年2月,《華爾街日報》發表文章《科技變革即將引領新的經濟繁榮》,文中罕見地做出大膽預見:“我們再次處于三場宏大技術變革的開端,他們可能足以匹敵20世紀的那場變革,這三場變革的震中都在美國,他們分別是大數據、智能制造和無線網絡革命。”
《華爾街日報》的斷言并非無的放矢。在今年年初的瑞士達沃斯論壇上,一份題為《大數據,大影響》(Big Data, Big Impact)的報告宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。
更加值得關注的則是,奧巴馬政府已經把“大數據”上升到了國家戰略的層面。根據美國白宮今年3月29日新聞,奧巴馬政府宣布投資2億美元啟動“大數據研究和發展計劃”.希望增強收集海量數據、分析萃取信息的能力。
上一次白宮親自參與推動信息技術產業的大手筆還是2010年希拉里提出的“國家寬帶戰略”,“大數據研究和發展計劃”也被認為是1993年時任美國副總統戈爾宣布的“信息高速公路”計劃后美國政府政策層面的一次“狂飆突進”,將“大數據”上升到國家意志將在下一個10年帶來深遠影響。
在互聯網和通信技術飛速發展20年后,一個屬于“大數據”的時代,真的來了。
數據海洋中的商業
商業的發展天生依賴數據來作出決策,但是自古至今,從未有一個時代出現過如此大規模的數據爆炸,如今的整個商業世界,已經變成了飄浮在數據海洋上的巨輪。
全球市值最大的連鎖餐飲企業麥當勞(微博)、零售業中的巨無霸沃爾瑪、在線零售的巨頭亞馬遜,這3家這個時代炙手可熱的企業,如果說他們之間存在著什么相關性的話,會是什么呢?
數據?沒錯。麥當勞的強大在于它賣的不僅僅是漢堡而是在從事一個精準選址,對數據深入挖掘的“房地產生意”;沃爾瑪的可怕在于其早在20世紀70年代末就開始通過挖掘數據來改善自己的供應鏈,時至今日,在其連鎖超市的表象之下早已成為一家巨大的數據公司;亞馬遜就更不用說了,貝索斯從不掩飾他對于數據中心的看重,對于這家電商巨頭來說,數據就意味著一切。
以沃爾瑪為例。早在1969年沃爾瑪就開始使用計算機來跟蹤存貨,1974年就將其分銷中心與各家商場運用計算機進行庫存控制。1983年,沃爾瑪所有門店都開始采用條形碼掃描系統。1987年,沃爾瑪完成了公司內部的衛星系統的安裝,該系統使得總部,分銷中心和各個商場之間可以實現實時,雙向的數據和聲音傳輸。
采用這些在當時還是小眾和超前的信息技術來搜集運營數據為沃爾瑪最近20年的崛起打下了堅實的地基。如今,沃爾瑪擁有著全世界最大的數據倉庫,在數據倉庫中存儲著沃爾瑪數千家連鎖店在65周內每一筆銷售的詳細記錄,這使得業務人員可以通過分析購買行為更加了解他們的客戶。
國外零售巨頭對于數據資產的重視也在近年來影響著國內的電商企業。凡客誠品(微博)CEO陳年(微博)對《商業價值》雜志記者表示,“現在的凡客是一家數據公司。”
2011年凡客內部最大且最重要的一次調整就是想要實現互聯網的系統化和數字化的管理,為了讓任何“數字”變得可預測和可控,凡客成立了數據中心。
一開始,大家對數據中心的需求就是得到一些簡單的數據,比如庫存的數量。但是他們慢慢發現,得到數據之后就會面臨一些相關的問題,如怎么配合進貨等,于是數據中心就開始根據不同的問題,不斷尋找數據與數據之間關聯,并最終把各種關系搭建起來。出現庫存周轉慢的問題怎么辦呢?數據中心就又得分析與庫存相關的數據關系。除此之外,數據中心還會去研究新產品的上架與新用戶增長的關系,每上線一個新品與它能夠帶來的用戶二次購買的關系等。