大數據的出現,必將顛覆傳統的數據管理方式。在數據來源、數據處理方式和數據思維等方面都會對其帶來革命性的變化。對于數據庫研究人員和從業人員而言,必須清楚的是,從數據庫(DB)到大數據(BD),看似只是一個簡單的技術演進,但細細考究不難發現兩者有著本質上的差別。
如果要用簡單的方式來比較傳統的數據庫和大數據的區別的話,我們認為"池塘捕魚" 和"大海捕魚:是個很好的類比。"池塘捕魚"代表著傳統數據庫時代的數據管理方式,而 "大海捕魚"則對應著大數據時代的數據管理方式,"魚"是待處理的數據。"捕魚"環境條件的變化導致了"捕魚"方式的根本性差異。這些差異主要體現在如下幾個方面:
1、數據規模:"池塘"和"大海"最容易發現的區別就是規模。"池塘"規模相對較小, 即便是先前認為比較大的“池塘”,譬如 VLDB(Very Large Database),和"大海"XLDB(Extremely Large Database)相比仍舊偏小。"池塘"的處理對象通常以 MB 為基本單位,而"大海"則 常常以GB,甚至是 TB、PB 為基本處理單位。
2、數據類型:過去的"池塘"中,數據的種類單一,往往僅僅有一種或少數幾種,這 些數據又以結構化數據為主。而在"大海"中,數據的種類繁多,數以千計,而這些數據又 包含著結構化、半結構化以及非結構化的數據,并且半結構化和非結構化數據所占份額越來 越大。
3、模式(Schema)和數據的關系:傳統的數據庫都是先有模式,然后才會產生數據。這 就好比是先選好合適的"池塘",然后才會向其中投放適合在該"池塘"環境生長的"魚"。 而大數據時代很多情況下難以預先確定模式,模式只有在數據出現之后才能確定,且模式隨 著數據量的增長處于不斷的演變之中。這就好比先有少量的魚類,隨著時間推移,魚的種類 和數量都在不斷的增長。魚的變化會使大海的成分和環境處于不斷的變化之中。
4、處理對象:在"池塘"中捕魚,"魚"僅僅是其捕撈對象。而在"大海"中,"魚" 除了是捕撈對象之外,還可以通過某些"魚"的存在來判斷其他種類的"魚"是否存在。也 就是說傳統數據庫中數據僅作為處理對象。而在大數據時代,要將數據作為一種資源來輔助 解決其他諸多領域的問題。
5、處理工具:捕撈"池塘"中的"魚",一種漁網或少數幾種基本就可以應對,也就是 所謂的 One Size Fits All。但是在"大海"中,不可能存在一種漁網能夠捕獲所有的魚類,也 就是說 No Size Fits All。
從"池塘"到"大海",不僅僅是規模的變大。傳統的數據庫代表著數據工程(Data Engineering)的處理方式,大數據時代的數據已不僅僅只是工程處理的對象,需要采取新的 數據思維來應對。圖靈獎獲得者、著名數據庫專家 Jim Gray 博士觀察并總結人類自古以來, 在科學研究上,先后歷經了實驗、理論和計算三種范式。當數據量不斷增長和累積到今天, 傳統的三種范式在科學研究,特別是一些新的研究領域已經無法很好的發揮作用,需要有一 種全新的第四種范式來指導新形勢下的科學研究。基于這種考慮,Jim Gray 出了一種新的 數據探索型研究方式,被他自己稱之為科學研究的"第四種范式"(The Fourth Paradigm)。表四種范式的比較:
四種范式的比較如上圖所示。第四種范式的實質就是從以計算為中心,轉變到以數據 處理為中心,也就是我們所說的數據思維。這種方式需要我們從根本上轉變思維。正如前面提到的"捕魚",在大數據時代,數據不再僅僅是"捕撈"的對象,而應當轉變成一種基礎 資源,用數據這種資源來協同解決其他諸多領域的問題。計算社會科學(Computational Social Science)基于特定社會需求,在特定的社會理論指導下,收集、整理和分析數據足跡(data print),以便進行社會解釋、監控、預測與規劃的過程和活動。計算社會科學是一種典型的需要采用第四種范式來做指導的科學研究領域。Duncan J. Watts 在《自然》雜志上的文章《A twenty-first century science》也指出借助于社交網絡和計算機分析技術,21 世紀的社會科學 有可能實現定量化的研究,從而成為一門真正的自然科學。