就在大家閱讀標題的這段時間當中,美國航空航天局可能已經從目前處于活躍狀態的大約100項任務當中收集到高達1.73 GB數據。美國航空航天局(簡稱NASA)正持續推進相關工作,而數據的收集速度亦以指數方式不斷增長。也正因為如此,對這部分數據進行管理成為其面臨的一項艱巨任務。然而,NASA收集到的數據亦非常寶貴,并在相關科學研究工作當中發揮著巨大作用。NASA方面正在努力簡化這些數據的使用流程,將其融入日常工作以及對宇宙變化趨勢的預測當中,同時希望借此通過創新與創造性方式為全人類謀求福祉。
在公布于2012年的“開放政府計劃(Open Government Plan)”2.0版本當中,NASA曾經討論但并未深入剖析“大數據”在其工作當中的重要價值——但他們同時承認,大數據還擁有極為廣泛的探索潛力。
相信大家都很清楚大數據的定義與作用,因此這里就不再對具體概念加以贅述。下面,讓我們直奔今天的探討主題。
NASA大數據挑戰
我們可能普遍認為NASA的大數據挑戰即是與地球相關的挑戰——但實際情況并非如此刻板。大部分大數據集由一個重要的元數據進行定義,但這些大數據集亦給當前及未來的數據管理實踐帶來嚴峻挑戰。一般來講,NASA方面的主要任務在于從太空中的航天器處持續獲取信息,而且其生成速度要遠高于當前的數據管理、存儲與分析速度。NASA主要擁有兩種航天器類型,其一為深空飛船,其二則為近地軌道衛星。深空飛船的作用在于以每秒MB量級向地球發回數據,而近地衛星盡管在運轉機制上與深空飛船類似,但傳輸的數據量卻為每秒GB級別。NASA利用激光等通信技術將大規模數據的下載能力加速至上千倍。但就目前而言,NASA無法處理這么多數據,而其顯然有必要為此做好準備。事實上,當下NASA設定的目標為在一天之內處理24 TB數據。如果我們將其整體數據量視為單一任務,那么其單日數據處理量將達到國會圖書館的2.4倍。
NASA專注于從大量數據當中收集最為重要的信息,而非存儲全部數據——這是因為從航天器處將數據轉移至NASA數據中心將帶來極為高昂的成本。而在數據中心內數據量的積累過程中,NASA亦面臨著對這批數據進行存儲、管理、可視化以及分析的一系列后續任務。為了對NASA需要處理的任務規模擁有初步了解,我們這里分享一項實例:截至2030年底,全球氣候變化數據庫的規模預計會增加至230 PB。更確切地進行比對,美國一年之內郵政服務所發送的全部信件總數據量僅相當于5 PB。
除了航天器之外,NASA還需要處理來自在線平臺、低成本傳感器以及移動設備的數據。2012年10月,《哈弗商業評論》雜志發表的一篇文章將這項任務描述為“我們每個人都相當于一臺會走動的數據生成器”。與其它眾多機構一樣,NASA的大數據挑戰似乎同樣極難得到解決。
而且可以想象,數據量的增長并非NASA面臨的惟一挑戰。隨著數據規模的提升,與之相關的轉移、索引以及搜索等各類挑戰都在呈指數級增長。除此之外,算法與設備的復雜性亦在持續走高,技術更新速度加快且預算水平趨于下降,這一切都在NASA的大數據處理工作當中產生了重大影響。幸運的是,目前美國政府正在高度關注大數據挑戰。 2012年3月,奧巴馬政府公布了“大數據研究與開發計劃”,其重點在于利用所需技術與工具加強從大量數字資料當中獲取、組織及訪問信息的能力。這項計劃的目標在于轉變政府對大數據的利用方式,并借此令數據在生物醫學與環境研究、教育、國家安全乃至科學發現等領域中迸發更大潛力。
現有方案
NASA正考慮構建新的處理方案,旨在對最高優先級數據進行可視化處理、分析與解釋。而在政府內部,現實狀況亦要求其以自下而上與自上而下兩種方式對大數據進行有效處理。NASA立足于“任務目標(包括技術、科學、人類空間探索、航空與作戰)”角度,通過“開放政府計劃”2.0版本發現了多種大數據的處理方案與實際舉措。
在大數據的歸檔、存儲、管理、可視化、分析以及實際使用等層面,NASA帶來了堪稱全球領先的以下各項處理實例:
管理與處理
任務數據處理與控制系統(Mission Data Processing and Control System,簡稱MDPCS)展示了NASA處理及管理大規模數據的具體方法。最近,火星探測器好奇號即使用了這套方案。MDPCS與深空框架相結合,旨在確保NASA的好奇號火星偵察飛行器提供現場數據,并對這些原始數據進行實時處理。在此之前,整個過程需要數小時甚至數天才能完成計算。另外,飛行器操作團隊還在任務執行當中利用到了由該系統構建的定制化數據可視化方案(Custom Data Visualizations)。
存儲
NASA的戈達德空間研究研究所以及全球建模與同化辦公室主要使用NASA氣候模擬中心(簡稱NCCS),后者專門負責為NASA提供大數據存儲方案。NCCS的主要著眼點在于天氣與氣候數據,其目前的數據總量為32 PB,占用的總存儲空間則達到37 PB。NCCS還使用一套高級可視化工具,即一塊17英尺x16英尺的可視化墻。該工具提供高分辨率界面,允許科學家們用以顯示NCCS數據的相關動畫內容、圖像與視頻。
歸檔與分發
大氣科學數據中心(簡稱ASDC)的重點領域為地球科學與行星數據系統(簡稱PDS),主要關注行星科學領域。ASDC的運作方式直觀展示了NASA對于大數據的歸檔與處理。ASDC位于NASA蘭利研究中心,負責NASA地球科學數據的分發、歸檔與處理。ASDC提供的大氣數據對于了解全球氣候變化以及人類活動對氣候變化之影響起著至關重要的作用,且目前其已經收集到多年氣候數據。PDS將科學數據納入NASA實驗室建立的行星測量與天文觀測網站之內,其目前提供超過100 TB太空圖像、模型、遙測以及過去30年間與行星任務相關的各類信息。
分析
NASA的Pleiades超級計算機提供強大的分析能力,且支持從太空氣候、太陽耀斑到空間全功能車輛設計的各項任務。Pleiades近期被用于處理NASA自開普勒航天器處收集到的大量星形數據。開普勒航天器負責在銀河系當中搜尋與地球大小相近的行星。美國本土有約1200名用戶依賴這套系統處理復雜而龐大的計算任務。另外,Pleiades亦被開發者們用于進行Bolshoi宇宙學模擬——此項目對過去數十億年來各星系乃至全宇宙的大規模結構演變進行分析。
可視化
NASA Earth Exchange虛擬實驗室(簡稱NEX)利用協作技術與社交網絡將數據可視化、數據系統、模型與算法、超級計算機以及超大規模在線數據加以整合。在NEX建立之前,科學家們投入了大量時間與精力以構建高端計算方法,這直接導致其無法集中精神處理真正的科學問題。現在,科學家們能夠利用超級計算機對地球科學數據集進行可視化處理,同時共享并運行建模算法并立足現有或者新型項目開展協作。最近,NEX環境被美國的一支研究團隊用于對大氣觀測影像進行拼接,旨在以30米為單位分辨率觀測全球植被密度。這一總像素數量達340億個的綜合素材在Pleiades超級計算機上只花了數小時即完成處理,使得團隊能夠輕松對各類新型方法與算法進行實驗。NASA還為地球科學界提供了大量知識共享與協作平臺,這一涵蓋了工作流管理、地球系統建模、NASA遙感數據源以及超級計算機的綜合體得以為研究人員提供一套可直接使用的整體解決方案。
商業云計算服務
火星科學實驗室的任務執行結果證明,NASA當前采取的大數據現代化方法確實行之有效,且其中大量利用到商業化云存儲解決方案及云計算服務。NASA在不到4個月之內即將網站遷移至Amazon Web Services及內容管理系統當中?;鹦强茖W實驗室過去曾高度依賴于關鍵性任務應用程序,但這些應用分布在約10座數據中心之內,且任何故障都有可能影響其面向公眾、科學家以及操作人員的約每秒150 Gb數據流交付能力?,F在,該團隊開發的解決方案能夠從好奇號處直接下載遙測數據及原始圖像的解決方案。來自火星的全部圖像皆以數據流的形式面向云端進行交付、上傳、存儲與處理。憑借著具備高可用性與可擴展性的數據庫,相關數據進行分類并通過一個Restful接口發布給應用程序及用戶。如此一來,火星網站的內容管理者即可利用強大的實時圖像提供相關信息。這套方案幫助NASA在一夜之間交付高達120 TB的動態內容與30 TB的靜態內容,從而充分滿足其網站每分鐘超過800萬次的點擊請求。另外,該團隊亦能夠借此充分發揮JPL Nebula與JPL Galaxy超級計算機的威能。這兩臺超級計算機能夠在24小時之內,以每項任務20 GB速率處理約200項蒙特卡洛模擬任務。
NASA在現實生活中的大數據應用
將大數據技術納入NASA不僅給美國政府帶來諸多助益,同時亦給普通民眾帶來切實影響。作為NASA將大數據技術領域的專長應用于現實生活的絕佳案例,正在于航空安全領域。NASA從飛機當中收集數據以發現各類能夠幫助商業航空公司改進現有維護流程的安全隱患,同時成功避免各類設備故障。利用先進的算法,NASA得以從大量非結構化數據當中提取相關信息,用于預見并避免安全問題。利用被稱為多內核異常檢測(簡稱MKAD)的開源算法,NASA能夠在兩種持續性數據網絡或者數據流之間找到共通點,而后利用單一框架檢測其內容以建立模式認知,從而自動檢測其與之前曾經出現的飛行故障事件之間的關聯。
大數據帶來機遇
從實時觀測全球氣候變化到對太陽等離子體噴射的研究,到大多數大型工程設計與現代化任務處理的具體方式,NASA已經當之無愧地成為大數據應用領域的領導者。在NASA,科學家們正在努力利用創新方法以控制不斷變化的環境,進而幫助政府應對由此帶來的眾多挑戰以及NASA自身開展業務的具體方式。NASA在大數據領域的探索方面無疑擁有幾乎無限的發展機遇。
開放政府計劃當中對NASA在大數據探索領域的具體舉措作出了概述。目前NASA已經建立起data.nasa.gov網站作為其數據參考門戶,而我們亦可將其視為NASA所提供的惟一且極為卓越的簡單數據目錄。NASA也在利用這些能力為用戶提供更易于使用的高質量工具與相關數據應用途徑。
NASA的科學家們設定了一項目標,即“為NASA的大數據發展機遇創造更多協作空間,同時加強與其它組織的合作關系,”旨在借此鼓勵普通民眾使用這些原始數據集并支持相關應用的構建以及NASA的自身使命。NASA亦協同了美國能源部科學與國家科學基金會辦公室在“TopCoder”平臺上舉辦了“大數據挑戰(Big Data Challenge)”大賽。各參賽選手需要開發相關移動應用程序,旨在從政府信息部門所掌握的離散數據當中發現新價值,而后思考如何走出個別孤島的限制將其納入跨機構通用型解決方案進行共享。這是一種與NASA之間的全新合作機遇與發展方向,亦有助于幫助政府建立起實現未來成功的新型思考與獨特進步觀念。立足于此,我們也得以一窺NASA在有效處理大數據并利用突破性工作充分發揮其作用的具體考量??梢钥隙ǖ刂v,如果能夠有效管理大數據,我們即可更多地運用這些數據。另外,憑借著在NASA這類重要組織機構內的廣泛普及,大數據也迎來了光明的發展前景。目前具備大數據培訓資質的人才數量日益增多,而世界各地的眾多頂級機構也在積極招納此類人才。因此,獲取大數據領域的知識儲備與認證資質亦有助于在世界各地知名機構內獲得理想的就業機會。