近一兩年來,尤其進入2012年后,“大數據”這個詞兒就塞滿了耳朵,無論是IT廠商,還是經濟學家,還是媒體,似乎如果不討論“大數據”,那就已經out了。筆者分別在百度和Google搜索了一下“大數據”,百度說“找到相關結果約13,100,000個”,Google說“找到約 623,000,000 條結果”,這里我們不討論為何百度和Google為何出現了較大的搜索差異,從搜索結果能夠看出,“大數據”這個東西,現在有多么火。
這不免讓筆者想起 “云計算”被熱炒的時候,大概從08年開始吧,網絡上所看到的,從各個IT廠商口中所聽到的,幾乎一切都開始被“云”籠罩,云計算迅速席卷了幾乎IT的每個角落,而各類人對于云的不同看法,也迅速讓云計算變成“暈計算”。至今,云計算的成功案例雖然有,但相比起初業內對這種新事物的憧憬,卻顯得少得可憐。客觀的說,云是一種的很好的IT使用模式,但未必適合所有應用和企業,熱捧讓云的作用夸大,帶來了不少泡沫和誤區。
云計算方興未艾,如今,大數據又開始興起,這一波又一波的新浪潮,對于大多數企業來說,是否已經讓您感到了“不是我不明白,是這世界變化快”?大數據到底是個什么玩意兒,跟我有啥關系?這個事物又是一個新的噱頭,還是即將開啟一個新的時代?
想必,有這些問題的人還不算少。
那么,到底什么是大數據?
和云計算一樣,大數據目前也還沒有一個標準的、能夠記錄在教科書上的定義。筆者搜集了一下,對于大數據的普遍認知主要有以下幾種:大數據就是海量的數據;是大量增長的交易數據;需要存儲并進行監管的數據;爆炸的新數據來源;等等。對于大數據中“大”的理解,主要有兩個方面,第一種是指大量的、快速增長的數據,第二種則是數據中所蘊含的大的價值和洞察。
最早提出大數據時代來臨的是知名咨詢公司麥肯錫,麥肯錫認為,數據逐漸成為重要的生產因素,人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來。在報告發布后,大數據迅速成為IT業關注的熱點,也引起了金融界的高度重視。筆者不能對于什么是大數據妄加論斷,對于大數據的描述,我們不妨來看看目前幾家涉足大數據的IT廠商的看法:
IBM大中華區董事長錢大群曾在IBM論壇2012上表示,大數據時代的到來,則使得數據更為重要,通過對數據的分析,可以為決策者提供更有建設性的看法。對于大數據,IBM提出了規模性(Volume)、多樣性(Variety)、高速性(Velocity)和真實性(Veracity)的“4V理論”;戴爾公司全球企業級解決方案副總裁Cheryl Cook認為,大數據就是指有大量的、快速的和多樣化的數據集合以及由此帶來的數據分析所導致的大的見解,同樣,戴爾提出了大數據的五個階段。
甲骨文公司副總裁兼大中華區技術總經理喻思成則認為,在大數據的實際應用中,用戶的最終目的是要利用大數據來進行更好的決策。這一過程是由四個部分來組成的:數據捕獲、組織、分析和決策。NetApp 大中華區總經理陳文表示,大數據要包括A、B、C三個要素:大分析(Analytic),高帶寬(Bandwidth)和大內容(Content)。
雖然定義并不完全相同,但是這些廠商眼中的大數據有這么幾個特點:數據很多并且很多樣,這些數據需要進行組織分析,就像在沙堆中尋覓金粒,找到對自身有用的信息;從數據分析結果中獲得決策,就像大數據廠商們所一直宣傳的,公司決策應當更加依賴于數據而不是經驗。
認清大數據,盲目跟風不可取
就和云計算一樣,大數據的本旨是好的,經過數據分析做出的決策也許要比經驗更加靠譜。大數據廠商經常舉出的例子就是零售業,比如經過消費者購買行為分析,將某某商品和某某商品放到一起,有效提高了銷量;又如房地產業,從搜索引擎反饋的消費者對房市的搜索結果,甚至能夠預測到樓盤的銷量。
但是,這一切真的都要歸功于“大數據”么?我想舉個例子,小李每天上班都要經過一條沒有名字的公路,這條公路平時也頗為繁華,車水馬龍,但是有條不紊。有一天,這條公路被商人買下了,將其命名為“大數據公路”,并增加了不少便利設施;接著,商人聯合了另外幾個商人,封鎖了附近其他幾條小路,告誡行人們必須都要走“大數據公路”,其他路則不通。于是,人們被迫蜂擁而至,原本順暢的公路也開始擁堵,交通狀況日漸復雜,行人也不免怨聲載道,而商人們正在考慮的,就是下一步該怎么收取過路費了。
這個比喻可能并不恰當,僅僅是筆者的一點看法,想說明的是,大數據是個好東西,但是其價值沒必要被無限的夸大,就像云計算誕生之初,IT幾乎方方面面都開始向云計算靠攏,比如網絡空間變成了云存儲,虛擬化也變成了云計算,很多新生的產品和技術無非是將傳統技術進行“時髦化”的包裝。大數據也是如此,正如上面的例子,也許我們以前所走的就是一條正確的道路,并非是走“大數據公路”才能走的更快;如果就是每天上班下班,那也不一定非要走“大數據公路”,走條小路,沒準走的更快,還不用交過路費。
噱頭和熱炒背后總有商業價值在里面,作為消費者,還需認清。對于普通企業,也許并不需要大數據,首先,數據量可能沒那么大,其中所蘊含的價值也許更沒有那么大,就好比在一堆沙子中挑出金子,金子未必會有,而挑出金子這個過程中所耗費的人力物力,也許早就超出了金子的價值。那么,大數據適合哪些企業?當然,首先這些企業要擁有大的數據,比如金融——金融業也是最早對大數據產生興趣的行業、大型零售企業、房地產、電信等等,沙子多了,從中挑出金子的幾率也就更多了,所以說大數據并非適合所有企業,想要擁抱大數據,還需從自身情況出發,最好的技術,未必就是最適合自身的。
和云計算一樣,大數據同樣描繪出了一副美麗的應用前景。但云計算所提出的,像水電一樣應用IT資源,徹底改變IT的應用模式,目前似乎還離我們還比較遙遠;而大數據作為一種新的IT應用趨勢,想要真正創造出價值,也許還需要幾年時間吧。制約大數據發展的一個主要因素就是人才。某國際知名IT廠商全球副總裁曾對筆者說,大數據的保存、分類是一個挑戰,但是更關鍵的一點是懂得Hadoop應用開發的人才太少,這是最大的挑戰。這位高管表示,中國真正懂得Hadoop技術的人不超過2000人,很多都是集中在一個企業中,特別是互聯網行業比較多,做應用開發的人才不夠,大數據的應用很難推廣。
還有一些IT企業提出了大數據中的所需要注意的,比如,IBM中國研發中心信息管理總經理朱輝表示,應對大數據挑戰是需要一整套解決方案的,單靠Hadoop或者NoSQL等單一的技術或者產品都不能從根本上解決問題,還需要傳統技術與新技術的融合;SGI CEO馬克·巴雷內切亞認為,大數據的產生越來越快,越來越多。很多數據經過很短時間使用以后,就很難使用了,但又不能丟棄。這就牽扯到大數據長期管理的問題。因此,如何快速、安全的存儲和管理大數據非常重要。
總的來說,云計算、物聯網、Web2.0、社交網絡、移動互連的快速發展讓數據前所未有的增長,并且更加集中,這種趨勢也將一直持續下去。海量的數據中,自然也蘊含著大的商業價值,這點筆者并不否認。但是大數據這種應用目前來看還只是少數企業的專利,在諸多的宣傳中其作用不免被放大,對于更多的企業來說,還需要認清自身需要,最好的技術未必是最適合的,多看看,多對比,盲目跟風是不可取的。