摘要:關于大數據,不同的書和不同的作者可能會有不太完全相同的定義。
關于大數據,不同的書和不同的作者可能會有不太完全相同的定義。比如,有的學者認為:所涉及的資料量規模巨大,無法通過目前主流軟件工具在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊。而維克托認為大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模數據的基礎上是無法完成的。但關于大數據的內涵都是一致的。
《大數據時代》給人印象最深的就是大數據時代的思維變革,它要求我們作出三個重大的思維轉變:第一,研究的數據量巨大,我們不再追求精確度,取而代之的是包容混雜性。這是一個信息爆炸的時代,各種各樣的數據浩如煙海、樣式繁多,只有少量數據是結構化的且能適用于傳統數據庫,而更多的數據是非結構化的,只有接受不精確性包容混雜,我們才能利用這更多的數據,才能打開通往大數據時代的窗戶。至此,我們也不再需要那么擔心某個數據點對整套分析的不利影響,也不再需要以高昂的代價消除所有的不確定性,只需接受它們并好好利用它們。還以谷歌公司為例,谷歌翻譯系統很強大、翻譯質量很高并且很靈活,就是因為它擁有一個更大更繁雜的數據庫,它曾把它所能找到的所有翻譯都放到了數據庫,作為一個翻譯的“訓練集”。
第二,不是隨機樣本,而是全體數據。在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,追求的是樣本等于總體,而不再依賴于隨機采樣。不可否認,隨機采樣曾給我們帶來莫大的幫助。因為在過去記錄、存儲和分析數據的工具不夠好,我們只能收集少量的數據進行分析,而隨機采樣方法能讓我們用最少的數據獲得最多的信息,既能減少人力、物力、財力的耗費,也能節約時間。但隨機采樣也有許多固有的缺陷,它的成功依賴于采樣的絕對隨機性,而絕對隨機性的實現非常困難,一旦采樣過程中存在任何偏見,分析結果可能就會相去甚遠;并且不適合考察子類別的情況。大數據得益于突飛猛進的數據收集、存儲、處理和分析技術,能夠避開采樣的缺陷對數據進行深度探討。
第三,我們不再熱衷于尋找因果關系,轉而更加關注相關關系。這是這本書里要求我們作出的一個一時半會兒難以習慣的思維轉變。在大數據時代,我們更多的是知道“是什么”就夠了,沒必要知道“為什么”,因為有些東西不好解釋也解釋不清,我們不必非得知道現象背后的原因,而是要讓數據自己“說話”。大數據的相關關系分析法更準確、更快速,而且不易受偏見的影響,更容易讓們得到事實上的結果,甚至會有點出乎我們自己的預料,因為我們的預料大多是建立在經驗和因果基礎上的。
談大數據,大數據要求我們分析的數據樣本等于總體,那這么多的數據從何而來?遠在信息數字化之前,我們就已經開始了收集數據和運用數據,數據的產生有兩個必要條件,那就是計量和記錄。只不過現在我們收集數據的方式更加多樣化了,收集數據的范圍更加廣泛了。僅僅是通過傳感器,各種壓力、振動、溫度、速度、方位等等都能成為數據。現代的社會,我們已經不在像以前一樣受限于數據了,文字、圖像、聲音、視頻都能成為數據,坐標、高度、方向、速度都能成為數據,就連互聯網上的聊天記錄和搜索記錄也都能成為數據。這一切的一切只是等待著被分析、被挖掘、被利用。
金無足赤,人無完人,大數據勢必也會存在自己的不足。首當其沖的就是我們的隱私問題,比如說“數據廢氣”使數據發揮了新的價值,能夠針對我們的瀏覽記錄推送個性化服務,但我們時刻都暴露在“第三只眼”之下——我們的購物習慣、網頁瀏覽習慣、社會關系網被它們監視了,一旦泄露了怎么辦。還有,大數據是不是過于依賴數據了,如果數據遠遠沒有我們想像中的那么可靠怎么辦。等等這些問題都有待于進一步解決。