在我們無意識中這個世界已經變成了一個大數據的世界了,我們經常討論大數據,究竟什么是大數據?近日在2012地理信息開發者大會上,EMC研發中心總經理劉偉接受了記者采訪,劉偉認為大數據意味著大機遇。
隨著互聯網的發展,移動社會的普遍應用,包括Facebook的發展和電子商務、音頻、視頻、圖像廣泛的應用,使得每一個個體都變成了巨大數據的創造者。這樣這個基數就變成了一個天文數字,而新產生的數據很大一部分是結構化數據和非結構化的數據。回到地理信息系統,地理信息系統是在走入這個大數據行業里面的一個比較前列的行業。隨著技術的發展,在測繪領域,新的技術為我們提供了很多新的測繪方法,包括遙感技術、GPS技術、和測量技術等等,它能幫助我們收集更多數據這是好的方面。另一方面也無形中推動了數據量的大發展。
而多媒體信息和傳統地理信息的結合也從某種意義上來講,讓地理信息的數據量有了一個跨越式的發展。比如說Google地圖,它06年的數據量是70TB,到了2010年已經達到了50萬TB,隨著新的移動互聯網、手機設備和LBS的發展,新的地理信息相關數據衍生出很多新的數據種類和增加了很多數據量。
我們看一下傳統上地理信息系統怎么管理和處理這些數據?傳統的地理信息系統相對處理數據的種類和類型比較單一、比較簡單。主要是矢量數據,就是點、線、面體以及跟矢量數據相關的一些屬性、信息。空間數據是利用文件系統來管理,我們用關系數據庫來關系這種屬性數據。所以文件系統加上關系數據庫的系統就變成了一個很典型的地理信息的數據管理系統。這個系統里有一個很明顯的問題,就是因為數據是在不同的地方管理,所以造成了在計算效率和數據管理,包括保持數據一致性的時候都有一些困難。所以后來有很多空間數據苦來同時管理空間數據和屬性數據。
地理信息發生了很大的變化,不管是從數據量還是數據的種類都跟以前不可同日而語。原來簡單空間數據管理已經不太適用了。我們覺得將來的方式對于矢量數據應該考慮大規模并行的空間數據庫來進行管理。面對這種大的數據量和多種類的數據,對于地理信息來講要解決兩方面的問題。一個是信息存儲問題。因為有這樣的數據量,我們信息存儲的平臺一定要具有這樣的特點,第一容量要大,第二擴展性要好,第三就是要能夠兼容異構的數據,能夠同時的管理結構化和非結構化的數據。數據的管理還有一個很重要的方面就是怎么分析和處理這個數據?這么大的數據,傳統的分析方法有限,所以處理數據的時候有幾個關鍵的地方:
第一,一定是分布式的處理方式,通過這個方式以達到更高的處理效果。第二,一定要想辦法讓我們的分析、讓我們的計算更加的靠近數據。這么高的數據分析系統有沒有?我們說“可以有”。這是EMC的一個存儲系統,這是業界無論是從可靠性還是性能都是最高的。我們看一下它的容量,單一的文件系統可以達到15PB。而這樣大的文件系統里面橫向的可擴展性能夠保證性能即便是這樣的大的數據,IO也可以達到1.5兆。
有了數據很好,有了數據可以有很多工作可以做,更重要的是怎么從大量數據中挖掘出來信息。傳統的方法都是做結構化的數據,數據量比較小,是TB量級的那時候是縱向擴展,接下來大數據時代,一方面數據既有結構化的,也有非結構化的。所以我們將來的分析平臺一定是能兼容結構化和非結構化。同時在分析能量上也要分析到PB量的數據。再有一個分析的形態一定是可擴展的,因為數據量不管是大它還是與時俱進的。怎么樣讓數據動態適應數據的增長,一定要讓系統里有一個可擴展的空間和能力。
舉一個例子,EBC分析平臺,它有兩個核心引擎,一個是Greenplum,它是一個大規模的并行數據庫,它有幾個很重要的特點,一個是容量大,可以處理PB級數據,另外一個就是可擴展性,我們叫做無共享體系架構。這個體系架構可以部署在一個很多節點構成的數據量,如果我們處理數據兩需要擴大,性能需要提高,可以通過增加節點完成工作。數據加載速度可以達到10/秒,因為它是把所有的查詢分布到不同的節點進行。這個系統所有的負載均衡都是由系統自動完成的。
還有一點GPDB是支持地理空間數據的數據庫。它通過支持PostGIS可以支持空間計算。剛才我們強調了大數據一定要有大數據的分析頭腦,GPDB有內置的分析強大功能,通過SQL的一些調用,可以調到很多分析的函數,包括像SVM這些都是在系統里有支持的。
再有一點就是支持全文搜索。這種全文搜索集成了Soir,它可以實現自由文本的全文檢索。同時并行的體系架構,在全文搜索中是完全被簡化的,搜索的效率非常高。剛才講的這些都是結構化的數據里面用什么樣的方式進行分析。對于非結構化的數據,大數據處理現在最好的方式就是Greenplum HD。它在標準的基礎上做了很多改進,特別是性能和可靠性上的改進。比如說增加了數字節點內容,可以增加反應速度和避免一些單節點的問題造成系統的問題。同時增加了一些競像的配套反應,這些都是根據系統可靠性采用的一些方式。
總的來說Greenplum這個平臺是一個大數據完整的分析解決方案,涵蓋了所有的數據,不管是結構化數據還是非結構化數據,加上分布式結構體系架構,可以在分析大數據過程中實現高容量高效率。
當前地理信息行業在經歷一個很大的轉變,這個轉變其中有一個方面就是我們要面對的數據是大數據,這對我們所有人來說是一個機會。在以數據為中心的時代,數據非常重要,擁有分析數據、駕馭數據的能力更重要。