當下,大數據可謂人盡皆知,更有甚者都把大數據神話了。但是,什么是大數據?大數據的準確定義又是什么?大數據能夠給我們帶來什么?這些我們目前還都不確定。但是打破關于大數據的神話將有助于我們認識大數據。
神話1:你能夠獲得所有的數據
在許多方面,我們正生活在一個前所未有的時代當中。我們從來都沒有像現在這樣能夠獲得如此多的數據。此前一直被人們所忽視的兆字節、拍字節和艾字節數據如今已經出現了。在如今的工業化社會中,平均每個人一天所消費的信息量超過了生活在十五世紀的人一生所消費的信息量。
目前還沒有一個人或一家公司能夠存儲和檢索關于某一特定主題的全部數據,更不要說是所有數據了,包括谷歌在內。谷歌索引的只是表層網中的信息,而不是深層網中的信息。專家估測,后者的規模是前者的25倍。因此,在我們進行搜索時,我們所獲得的信息量僅僅是互聯網信息量中的4%~6%。
神話2:你需要所有的數據
毫無疑問,數據越多幫助越大,但這并不意味著在做商業決策時你需要所有的數據。正在高效利用大數據的公司已經認識到,他們不需要獲得所有的相關信息。
幾乎每天都會涌現出大量新的數據源,但是并不是所有的數據都有價值。例如,電子郵件信息常常為我們提供了洞察企業狀況的寶貴信息。精明的公司正在挖掘個人信息,以評估員工的情緒,以及誰可能會辭職。但這并不是說所有的電子郵件都具有相同的價值。因為分析垃圾郵件沒有任何意義。你并不需要所有的數據。數據當然是越多越好,但是請不要浪費時間嘗試做這一不可能實現的事情。
神話3:大數據會給我們明確的答案
我們經常聽到這樣一句商業格言是“處理你能夠處理的數據,并從中獲得更多信息。”我們在利用所獲信息做商業決策時會遇到許多問題。實際上,我們根本無法利用這些信息完全準確地預測出公司的并購、產品的發布、新的風險投資,以及員工入職等情況。
但這并不是說,存在不確定性,大數據就不能為我們提供幫助了。請不要將減少不確定性和消除不確定性混為一談。大數據能夠幫助我們消除不確定性的這一天還沒有到來,可能這一天永遠也不會到來。對海量非結構性數據進行分析或許能夠幫助公司更好的理解客戶的情緒。但是請不要誤認為大數據能夠為我們排除所有的可能性。生命的無常和業務的起伏將會破壞我們制訂出的完美計劃。
神話4:大數據只是曇花一現
可以說是大數據領域中的代表人物,至少在他離開《紐約時報》之前是這樣。在2012年的美國總統大選中,盡管許多人預測奧巴馬和羅姆尼在得票率方面將旗鼓相當,但是身為統計學家的Silver卻預測,奧巴馬將以90%的選舉人票贏得2012年的美國總統大選。由于Silver的預測模型極為精準,以至于如今許多人在遇到事情后都來向他尋求幫助。
雖然大數據和數據科學的定義在今后幾年仍然不會確定下來,但是可以肯定的是,人們在2013年消費的數據量超過了2012年所消費的數據量。許多公司已經認識到了大數據的重要性,拒絕大數據可能將會導致公司在競爭中被淘汰出局。