中國科技網6月25日報道(張微 編譯)擴大地球大數據處理的領域,EARTHSERVER項目能夠讓研究人員訪問和分析從多種渠道獲取的多維數據。
地球科學,如地質學,海洋學和天文學,產生海量的大數據。但沒有合適的工具可利用,科學家們要么淹沒在地球大數據海洋中,要么是大數據躺在檔案館里沉睡,很少被利用。
EARTHSERVER項目的愿景是為研究人員提供“指尖上的地球大數據”,這樣他們僅僅通過點擊幾次鼠標就可以訪問和處理海量數據集。
項目協調員,來自德國不萊梅雅克布大學計算機科學專業教授彼得·鮑曼說,“項目是‘推’和‘拉’合力的結果。”在需求方面,我們有處理海量數據的需求。在供給方面,我們有數據立方體技術適合這個領域。數據立方體是一個三維(或更高)數組的值,常用來描述時間序列的圖像數據。
數據立方體幫助研究人員訪問和可視化數據
EARTHSERVER項目建立了更加先進的數據立方體技術和定制門戶網站,使研究人員用三維數據集,二維題圖或一維圖提取和可視化地球科學數據成為可能。例如,英國地質調查局利用EARTHSERVER技術,用三維方法穿透地球的不同層。
“對于用戶來說,數據立方體能夠隱藏不必要的復雜數據,”鮑曼教授說。“作為用戶,我不想看到一百萬個文件:我只想看幾個數據立方體。”
地球科學中的海量數據是由傳感器、圖像,模擬和統計數據來描述,通常都與時間維度相關聯。數據通常形成規則或不規則的網格值和時間/空間坐標。EARTHSERVER使這些數組成為數據立方體。
除了使用方便,數據立方體還可以整合不同學科的數據,而且科學家們可以將測量數據與仿真數據相結合。
建立在現有技術基礎上
為了有效地處理地球大數據,EARTHSERVER項目需要提高現有技術和標準。例如,SQL數據庫查詢語言更多地面向字母數字數據的操作。
為了成為數據立方體,這個項目需要在rasdaman基礎上建設,這是一個新的數據庫管理系統,專門用于多維網格數據,calledrasters數據和數組。Rasdaman能夠從任何規模的地球大數據數組中靈活、快速地提取數據。
“實際上,我們促成了SQL數據庫語言與圖片處理技術的聯姻,”鮑曼教授說。“這是現在成為ISO SQL標準的一部分。”
此外,該項目已經對歐洲空間數據基礎設施,開發地理空間信息聯盟的地球大數據標準產生了重要影響。
EARTHSERVER項目的研究人員還開發了一個‘語義并行化’技術,將一個單一數據庫分為多個子查詢庫。這些都被發送到其它數據庫服務器上進行處理。
這種方法允許EARTHSERVER分配單個輸入查詢到超過1000個云節點上,而且能夠在不到一秒鐘的時間里快速回答數千兆兆字節的查詢。