Esri自2013年發布了GIS tools for Hadoop,正式加入互聯網大數據廠商的行列,至今已經3年了。在這3年中風云變幻,業界技術在不斷的發生著變更,Esri的大數據戰略也在不斷的向前推進。 在剛剛結束的2016Esri空間信息技術開發者大會上,在IT熱點技術專場的《ArcGIS平臺下的大數據挖掘》,與往年相比,發生了明顯的變化。往年因為Esri自身的原因,將大數據限定在空間大數據這個領域里面。但是今年很明顯的發現,在ArcGIS的平臺上,已將傳統的空間二字去掉,使得平臺支持的領域更加廣泛。
實際上,地理信息發展了這么多年,如果說最能與互聯網大數據概念掛鉤的,只有LBS(基于位置的服務)數據和遙感影像的數據。這兩類數據無論是從體量上,還是從生成速度、數據結構、維度以及價值密度上,都能夠與互聯網大數據的概念貼合。但是傳統的空間分析乃至于空間數據挖掘領域,卻更多是在地理空間統計樣本上進行分析。而且因為空間數據的特點,諸如空間自相關、空間異質性等空間統計學與傳統統計學截然不同的概念,使得很多的分析,無法采用互聯網大數據中那些分布式計算的方法來實現。
在Esri中國高級咨詢師盧萌看來,“這一次開發者大會,從大數據的熱炒狀態中,回歸了地理分析的本源。”
盧萌在其《ArcGIS平臺下的大數據挖掘》講座中談到,地理分析一直是地理信息系統區別于其他系統最大的不同點。地理信息首先是一個從不一樣的視角來看待整個世界。很多人都說,做地理信息的人,每天都像神一樣,在離地幾百米以上的高空俯視著整個大地。而地理分析讓這個視角更進了一步,不但是從高空俯視著大地,而且通過不同的痕跡,可以讓我們的視野穿越過去未來,在更廣闊的空間和時間線了解發生了什么事情。
其次,地理學研究的領域是所有領域中最為廣泛的,上至無窮的太空,下至人類所能探測到的最深的地底,都是地理學的研究范圍,很多研究都在改變著我們的生活。這樣一個廣泛的領域構成了一個巨復雜的系統,比之這個系統的龐大程度,特別是隨著人類觀察手段的日益提升,互聯網所謂的大數據,在它面前,也都是九牛一毛。
在回歸地理分析本源的情況下,盧萌還介紹了新一代技術能夠給地理分析帶來什么。
他認為,首先就是業界最流行的Hadoop的MapReduce框架進化到2.0之后,對地理分析帶來的價值。本次開發者大會,首次在GIS領域演示了新一代大數據分析框架Spark的應用。
因為傳統的MpaReduce架構對迭代運算的支持很不好,所以很多地理分析都無法運行在其上面,更多的只是在它上面運行諸如過濾、聚合這樣的簡單的空間分析。而新一代的Spark框架,因為其采用了彈性分布式數據集(RDD)這一特性,能夠使得在Spark框架上,進行迭代運算的效率,超過傳統MapReduce的百倍以上。這樣,很多的分析算法就能夠直接跑在Spark上面了,諸如空間分析領域中最重要的前提計算步驟:構建空間權重矩陣。利用Spark的優勢,完全可以將龐大的空間權重矩陣加載到RDD中,然后每次運算都可以從預先構建的矩陣中快速獲取鄰近要素。這樣就讓很多在以前不可能實現、具有強空間自相關的分析在分布式集群框架上運行了。
據盧萌透露,未來,Esri的分布式并行計算框架,將慢慢的從MapReduce上轉移到Spark上來。另外作為空間技術的業界領導者,Esri也致力于推動開源技術的發展。所以他建議有興趣的朋友可以從GitHub上下載最新的GIS Tools for Hadoop,開始嘗試Spark分析框架在空間分析領域給我們帶來的變化。
盧萌最后還指出,ArcGIS軟件作為平臺級產品,無論是對空間信息技術的支撐,還是對非空間信息的內容進行支撐,都在不斷的進步。“從淘汰VB,將Python作為官方指定腳本,到能夠在平臺中直接引入R語言,都表明了這種趨勢,未來ArcGIS平臺將更加強大,也會有更廣泛的應用。”