地質學是通過對自然現象的觀察,發現觀測數據中內在的規律性,其本質上是一門信息學科,是典型的數據密集型科學。21?世紀以來,隨著地球信息探測技術的日新月異,獲取數據的能力不斷提高,積累的地球觀測數據呈指數級增長,預計到?2020?年全球數據總量將達到?40?ZB。多元、多維、多源、異構、時空性、方向性、相關性、隨機性、模糊性、時空不均勻性和過程的非線性是地質大數據的特點。地質大數據與一般大數據有相似之處,但也存在顯著差別,大數據給地質學帶來了前所未有的機遇與挑戰。
當前,大數據正在影響著人類生活,改變著人類認識和研究世界的思維方式。大數據時代,數據密集型知識發現成為繼理論科學、實驗科學和計算科學后科學研究的第四范式。2008?年、2011?年Nature?和?Science?分別出版了大數據研究的專刊。大數據研究成為各國關注和優先發展的國家戰略性技術。作為國家大數據戰略的重要組成部分,地質大數據的應用研究方興未艾。《國土資源“十三五”科技創新發展規劃》指出,要強化地學基礎研究,開展地球深部過程與動力學、地球環境演化與生命過程、礦產資源和化石能源形成機理研究,加強地球關鍵帶過程與功能、全球環境變化與地球圈層相互作用、人類活動對環境影響、重大災害形成機理研究,深化地學大數據與地球系統知識發現研究。云計算、物聯網、人工智能等技術的興起,使信息技術滲透方式與處理方法及應用模式發生變革、地質研究中多系統聯合與結合成為可能。
利用地質學與大數據的結合,開展對地質數據的綜合研究和應用,拓展了地質學的認知空間,提升了獲取地質學新知識的能力。相比大氣科學、海洋科學、遙感科學以及全球變化等地學大數據的研究,地質學大數據的研究起步較晚,由于缺乏頂層設計和基本規劃,地質大數據中心建設薄弱。本文著眼于我國未來地質學發展,在分析地質大數據特點及國內地質大數據研究現狀的基礎上,闡述地質大數據擬研究的前沿科學問題,提出了未來中國地質大數據發展戰略目標,探討了地質學大數據發展的主要內容和解決途徑。
地質大數據的特點
地質大數據是通過露頭地質觀測、勘查工程、地球物理探測、地球化學探測、遙感和物理測試、化學分析等手段采集到的一種科學大數據,涉及地球從內到外的各個圈層,涉及地球形成與演化的歷史,涉及地球的物質組成及其變化,涉及礦產資源的形成、勘查與開發利用,涉及人類環境的破壞與修復等。
地質大數據具有傳統大數據的“4V”特性,即數據量大(volume)、類型繁多(variety)、速度快時效高(velocity)、價值密度低(value),同時還具有科學大數據的“三高”特點,即高維度(high dimension)、高計算復雜性(high complexity)和高不確定性(high uncertainty),且由于地質對象的發展演化時空范圍龐大、地質作用影響因素眾多,這種高維度、高計算復雜性和高不確定性特點則更加顯著。地質大數據的特點主要表現在以下?4?個方面。
多源(元)異構性
地質數據的采集平臺和手段繁多,不同手段獲取的數據也具有不同的數據組織管理形式。例如:野外露頭描述數據、鉆孔巖芯描述數據、各種地質報告文檔數據,以及大量野外填圖、素描和照片,遙感獲取的影像數據,地質災害監測獲得實時點位數據等。有的數據是以紙質形式存儲和管理,有的經過結構化轉換匯聚?GIS?并入庫存儲。不同的數據組織方式形成了不同的數據結構,對同一地質本體的描述也因空間基準和時空尺度存在差異而形成語義鴻溝。不同的數據采集方法,多角度的描述,造成了地質大數據的嚴重異構和多模態。
時空相關性
由于地質體、地質結構、地質資源、地質環境和地質災害通常占據龐大的空間范圍且伴隨長時序的發展演化,地質大數據的“時間維”具有長期性和階段性的復雜特點,是其他地球科學數據不具備的。
地質數據高度的時空特性體現在兩方面:①地質對象本身具有特定的地質年代,地質學研究也具有明顯的區域性,在特定時段、特定區域內的研究對象往往帶有明顯的差異化特征。②地質數據用來描述某一時間點在特定位置的對象的屬性,這種固有屬性在獲取數據時就已經產生。地質數據的時間尺度可從分秒橫跨至數十萬年,再加上描述其空間位置的坐標系、投影參數以及探測精度、基本粒度的變化,則進一步增加了地質數據的復雜度。因此,脫離了時間、空間的地質數據是沒有意義的,在涉及地質大數據的融合分析時也要將其劃歸到統一的時空基準下。
復雜性與模糊性
地球是一個復雜的巨系統,地質數據的參與在一定程度上降低了該系統的復雜度,使建模和求解成為可能。然而由于地球各圈層因素相互作用,各類地質過程本身具有高度的復雜性,人類對于許多地質規律的解釋和結論還存在爭議。再加上地質數據對描述對象的定量化困難,決定了地質數據分析、建模和計算的困難程度。大數據的技術取向之一是“重關聯不重因果”,我們不可能僅通過數據就搞清楚地質現象發生的機理,且采集全球樣本數據到現階段還無法實現,因此地質大數據分析的結果大多是模糊不確定的。
地質體的全球性與國家利益
地質體和地質單元的分布不以國家界限為界限,地質資源的分布不以國家和人口的需求而分布。這就造成“國家利益”干預造成的全球數據庫建設的困難。
地質大數據研究進展
總體來看,我國地質大數據研究還處于起步階段。一方面,許多人質疑大數據對于地球科學這一門觀察學科的適用性,另一方面,多數研究人員還未意識到積累數據、共享數據的重要性,這在一定程度上阻礙了地質大數據的發展。此外,大數據研究追求的“相關性”研究與科學研究中的“因果性”知識發現存在巨大矛盾,這對科學家們的思維方式轉變提出了挑戰。綜合近年來的研究成果,國內地質大數據研究現狀可以歸結為以下?3?點。
地質大數據的存儲管理
地質學發展至今積累了大量的地質資料數據,隨著地球信息探測技術的迅速發展,又有源源不斷的新的地質數據快速產生。地質大數據不僅有定性、定量數據,還包括文字說明,甚至是地質圖件或者是地質工作者在工作中留下的視頻、音頻文件等資料,而長期的目錄文件存儲方式極大地降低了數據查詢、檢索、統計、更新、挖掘等操作效率,導致數據服務能力低下[3]。因此,構建一套能夠有效地實現結構化、半結構化和非結構化數據一體化、靜態數據與動態數據一體化、地質數據與地質模型一體化存儲管理的地質信息系統,對于完成海量地質資料穩定、高效地存放與讀取就顯得十分重要。
目前已有學者提出進利用云平臺、Hadoop?和?NoSQL等技術,借鑒實時?GIS?時空數據模型,實現對地質時空大數據模型的動態管理。Hadoop?是目前大數據存儲與處理的標準平臺,可以通過?MapReduce?支持大規模數據的并行處理。而?NoSQL?數據庫使用分布式節點集動態處理負載。采用分布式文件系統技術可以對地質大數據進行存儲并提高數據的容錯能力與可靠性。例如中國地質調查局發展研究中心國土資源部地質信息技術重點實驗室研發的中國地質調查云平臺,就是在這種框架下建立的非結構化地質數據存儲組織模式,通過改變非結構化數據的存儲、閱讀、搜索和應用模式,為智能地質調查提供精確、快速服務奠定了基礎。
地質大數據的挖掘分析
大數據時代下的?3?個重要技術取向是:要全體不要抽樣;要效率不要絕對精確;要關聯不要因果。這迫使我們從數據的類型、數據運維以及大數據帶來的挑戰性這?3?個維度重新思考數據分析。周永章等認為大數據與數學地球科學的核心應用技術應該包括高維數據降維、圖像數據處理、無限數據流挖掘、機器學習、關聯規則算法與推薦系統算法等。
數據挖掘是指從大量數據中通過算法搜索其隱藏信息的過程。相較于數據檢索和信息提取,數據挖掘需要基于大數據和知識庫的智能推理的理論和技術支撐。地質大數據挖掘就是從數據倉庫中找尋隱含的特征和規律,并應用在地質規律研究、成礦預測、資源評價、環境保護和地災防治領域的過程。該過程需要利用涉及到人工智能、機器學習、模式識別、歸納推理、統計學、數據庫、高性能計算、數據可視化等相關方法和技術手段,在多主題、多模態的地質數據中自動或半自動地獲取新的可被理解的知識,從而為地質專題研究和應用提供決策。
目前,數字地質的任務就是大力推動地質科學的數據挖掘和數據分析方法的更新。如何從規模巨量,但價值密度偏低的大數據中有效地挖掘提取信息是當下地質大數據研究中擬解決的關鍵問題。地質大數據分析的關鍵技術主要是對多源(元)異構的地質數據進行綜合分析。其中包括對結構化數據的相關性分析,對半結構化數據的信息提取和結合非結構化數據作為以上數據處理結果的驗證分析。此外,物聯網、虛擬現實、云計算等技術興起,使得基于互聯網的地質數據資源共享平臺的研制成為可能,也為復雜地學計算提供了條件。將云計算、人工智能融入地質大數據挖掘與分析已經成為新的發展趨勢。例如,有學者借鑒了大數據思維,利用貝葉斯網絡探尋礦床的成因機制,從而構建大數據-智能礦床成礦與找礦模型,推動從“數字地質”到“智能地質”的革命。
地質大數據的應用服務
地質大數據不僅改變了地質學家研究科學問題的思維范式,也給以數據分析為基礎的地質行業帶來了技術革新。地質大數據在各領域數據化水平的提高,有效地打通了信息孤島,使定量化分析能夠進一步推進。地質大數據的應用服務主要體現在以下?5?個方面。
基礎地質調查。《國土資源“十三五”科技創新發展規劃》指出要推進數字地質調查系統向智能化方向發展,逐步實現地質數據快速采集、實時匯聚、高效分析處理與建模,推動大數據技術支撐下的智能地質調查和服務模式創新,深化地質填圖、礦產地質調查、油氣地質調查、海岸帶綜合地質調查等領域的應用。
如何將分布式的數據云存儲、云管理和云服務體系應用在我國各類基礎地質調查數據庫,實現海量、碎片化、非結構化與多樣性的數據高效快速存儲,是大數據時代基礎地質調查研究的熱點。此外,我國正在開展數字地質調查,中國地質調查局開發的“地質云?1.0”已經在?2017?年正式發布并上線服務。該系統面向各類地質調查專業人員提供基礎地質、礦產地質、水工環地質、海洋地質等多類專業數據共享服務;面向社會公眾提供多類地質信息產品服務。升級完善的智能地質調查系統已在基礎地質和礦產地質調查領域示范應用。
國土資源管理。國土資源部門在多年的信息化建設實踐中積累了海量的土地數據,進而提出了國土資源全尺度數據整合與大數據構建技術。2016?年國土資源部提出要持續完善國土資源“一張圖”數據資源體系,構建統一的國土資源數據共享和開放平臺。其中大數據采集與分析技術成為構建決策支持系統、智庫信息化工作平臺,逐步形成信息化條件下的新型“互聯網+”智庫運行體系的重要技術手段,對于提升國土資源宏觀調控、管理監測、形勢分析、政策評估、輿情分析等領域具有重要的決策支持能力。
地質災害監測。以物聯網、大數據技術為支撐,從海量地質災害數據中充分挖掘數據的潛在信息價值,并結合多軌道、多尺度和多時相的遙感環境監測技術,建立智能化的地質災害、地下水、礦山地質環境、地面沉降、水土環境、地質遺跡等調查、監測數據采集系統和預警預報系統,從而加強對災害發生趨勢的研判和預測,強化實時監測與預警,用數據的力量防治地質災害。
礦產資源勘查。礦產資源是國民經濟發展所需的重要物質基礎,而礦產資源預測是資源發現與勘察中的指導性工作。以往專業人員都是在一定的理論和方法指導下,憑借已有的知識和經驗并采用定性或定量的方法進行預測找礦。而隨著礦產資源預測理論的不斷進步,以及地學信息與虛擬現實技術、3S?技術、數據庫技術、三維建模及可視化技術等的有機融合,對于認識新的成礦規律意義重大。這種方法從地質科學相關的海量數據中進行挖掘,對各種礦床類型進行多維度、多特征的描述和建模,從而代替由少量參數構成的預測模型,實現了地質理論和實際問題解決、數學應用和數學模型研究與信息技術應用三結合的礦產資源預測評價。此外,大數據驅動下的成礦預測理論的出現,進一步催生了大量以空間數據庫為基礎的三維可視化軟件系統和礦產資源預測系統,為智慧找礦奠定了基礎。
三維可視化。數據可視化是描述、表達和理解各種半結構化甚至非結構化問題的關系和模型的最佳方法和手段。以地質空間大數據為基礎,結合三維可視化、虛擬現實技術等,針對地質體和地質結構進行三維動態可視化建模,則可構成“玻璃地球”,幫助科研人員分析、預測、評估和決策。以數字礦山技術發展為例,三維可視化技術能夠更加生動地展示礦山地質地貌的信息,清楚地反映礦體賦存狀態,從而綜合、動態地指導研究人員進行礦體定位與成礦預測工作。
大數據時代給地質學的發展帶來了機遇和挑戰。一方面,地質大數據為我們全面感知、了解地球打開了新的圖景,也為地質科學的知識發現、科技創新提供了新的手段和途徑。另一方面,由于地質大數據具有科學大數據的“三高”特點,給大數據的挖掘和利用提出了難題。此外,數據交流、共享機制的不成熟也成為地質大數據研究發展的阻礙之一。如何建立高效的大數據服務平臺,推動具有大數據源的各個學科協同研究是今后要解決的重要問題。我國地質大數據的研究還處于起步階段,但它的重要戰略意義和發展應用前景都應該得到肯定。為此,提出加快我國地質大數據建設進程的?3?點建議。
推動“地質+大數據”人才培養體系的建立。高校要應對大數據時代的挑戰,建立地質大數據人才培養方案。呼吁教育部和科技部加大對地質大數據項目的支持,以項目育人才,培育出既有扎實的地質學基礎,同時熟悉算法開發、數據建模及數據架構,并且能夠勝任地質大數據系統研發、地質大數據挖掘與分析、地質大數據應用開發等工作的學科交叉型專業人才。
加快地質大數據共享交流平臺的建立。數據的自由流通和共建共享是發揮數據資源價值的關鍵。目前大多地質數據資源建設都由重大科研項目驅動,有一定的項目實施周期,其數據服務平臺也存在著功能單一、檢索效率低下、數據庫建設標準不一等缺點,造成系統平臺數據流通性、可用性較差。應由國家層面的專門機構協調構建由高校、科研院所和地質生產單位共同參與的地質大數據中心,在保護國家利益的前提下,加快構建規范統一的地質大數據共享交流平臺,推動地質大數據的研究與應用。
地質學家和地質工作人員的思維變革。科學大數據已成為科學研究的重要途徑,數據密集型科學范式也已逐漸被接受。地質學家和廣大地質工作人員應該抓住歷史契機,擁抱大數據,改變經驗的傳統思維模式,以新的態度看待數據,以新的思維方式利用數據,從中獲取新知識,創造新價值。