2009年時,全世界關于大數據的研究項目還非常有限,從2011年開始,越來越多的管理者開始意識到,大數據將是未來發展不可規避的問題,而到2012年年底,世界財富500 強企業中90%的企業都開展了大數據的項目。IDC的研究顯示,到2015年,大數據市場前景將達到169億美元的規模。當前所有企業的商業數據每隔1.2年就將遞增一倍。無疑,數據信息的大爆炸不斷提醒著我們,未來將會因大數據技術而改變。
那么,大數據為什么成為所有人關注的焦點?大數據帶來了什么樣的本質性改變?為此,我們與中國計算機學會大數據學術帶頭人、中國人民大學信息學院院長杜小勇教授進行了訪談。
杜小勇教授認為,大數據帶來了三大根本改變:
第一、大數據讓人們脫離了對算法和模型的依賴,數據本身即可幫助人們貼近事情的真相;
第二、大數據弱化了因果關系。大數據分析可以挖掘出不同要素之間的相關關系。人們不需要知道這些要素為什么相關就可以利用其結果,在信息復雜錯綜的現代社會,這樣的應用將大大提高效率;
第三、與之前的數據庫相關技術相比,大數據可以處理半結構化或非結構化的數據。這將使計算機能夠分析的數據范圍迅速擴大。
杜小勇教授用例子更進一步闡述了上述觀點:
第一、計算機科學在大數據出現之前,非常依賴模型以及算法。
人們如果想要得到精準的結論,需要建立模型來描述問題,同時,需要理順邏輯,理解因果,設計精妙的算法來得出接近現實的結論。因此,一個問題,能否得到最好的解決,取決于建模是否合理,各種算法的比拼成為決定成敗的關鍵。
然而,大數據的出現徹底改變了人們對于建模和算法的依賴。舉例來說,假設解決某一問題有算法A 和算法B。在小量數據中運行時,算法A的結果明顯優于算法B。也就是說,就算法本身而言,算法A能夠帶來更好的結果;然而,人們發現,當數據量不斷增大時,算法B在大量數據中運行的結果優于算法A在小量數據中運行的結果。
這一發現給計算機學科及計算機衍生學科都帶來了里程碑式的啟示:當數據越來越大時,數據本身(而不是研究數據所使用的算法和模型)保證了數據分析結果的有效性。即便缺乏精準的算法,只要擁有足夠多的數據,也能得到接近事實的結論。數據因此而被譽為新的生產力。
第二、當數據足夠多的時候,不需要了解具體的因果關系就能夠得出結論。
例如,Google 在幫助用戶翻譯時,并不是設定各種語法和翻譯規則。而是利用Google數據庫中收集的所有用戶的用詞習慣進行比較推薦。Google檢查所有用戶的寫作習慣,將最常用、出現頻率最高的翻譯方式推薦給用戶。
在這一過程中,計算機可以并不了解問題的邏輯,但是當用戶行為的記錄數據越來越多時,計算機就可以在不了解問題邏輯的情況之下,提供最為可靠的結果。可見,海量數據和處理這些數據的分析工具,為理解世界提供了一條完整的新途徑。