高性能計算機、互聯網、物聯網等信息技術飛速發展,強子對撞機、空間遙感等大型科學裝置和科研設施的建立與運行,產生了海量的科研數據。數據密集型科研越來越成為當代科學研究的特征,科技進入了“大數據”時代。
2013 年底,美國《自然NATURE》新聞焦點特別介紹了一個飽受實驗生物學困惑的碩士研究生改行從事生物信息學研究,并獲得成功的真實故事。這則故事是現代科研方式發生變化的生動注腳。
現代科研活動等各個領域都已經推到了一個前所未有的大數據時代,量變引起質變,不斷增加的數據引發了人們的思維和行為方式的變革。信息化推動全球各行各業發生顛覆性的改變,在當前,科研信息化工作主要體現為對科研大數據的整合與利用。
現代科研活動中,在觀察實驗、理論分析、計算流程之后,一種被稱之為“數據科學”的學科已經開始顯現?;趯Υ髷祿姆治鰜砀玫亓私馐澜?,解決從前難以解決的,或甚至不可解決的許多科學問題,產生意料之外的科學發現。可以說數據已成為新型戰略資源,是驅動創新的重要因素。一個國家的科學研究水平,已越來越多地取決于其數據優勢,及將數據轉化為信息和知識的能力。
然而,伴隨海量科研數據的膨脹,國內與之不相匹配的是數據的保守與應用壁壘,中國工程院孫九林院士、郭華東院士等為此在各類場合呼吁“大數據共享”,希望科研機構突破大數據應用上的諸多保守機制。
業內人士指出,無論是在科研數據的共享政策與機制,還是在對大數據的管理、分析、可視化及應用的技術方面,目前都面臨著一系列的問題和挑戰。因此,科研信息化建設亟需加強頂層設計,面向用戶和實際應用,統籌協調,培養起一支強有力的專業信息化人才隊伍,同時,促進數據獲取和共享的標準規范,推動科研大數據真正流動起來。
計算能力需面向用戶
2013 年底全球超級計算機500 強的榜單上,天河二號蟬聯冠軍,中國占有65 席,其中多數在高校。中國的超算能力正在向百億億次進軍。但面臨的問題卻不容忽視,業內人士指出,如果五年內機器使用率不高,或者效能得不到發揮,巨資投入的超算計算機將血本無歸。而“用做什么”一直是這些超算能力縈繞不去的困擾。與此同時,超算能力的過于集中,造成科研領域閑置與稀缺的兩種極端情況存在。
國內建立了各級高性能計算中心,而這些能力的輸送并不均衡。中國海洋大學的“海洋信息探測與處理”學科研究,常常需要大數據計算,但是,學校30 億次的計算能力無法滿足其需求,因此,每次都讓學生用硬盤拷貝幾十T 的數據,送到北京的超算中心來進行數據挖掘和分析。
在蘭州大學,這個情況尤其突出,蘭州大學大氣物理所的田文壽所長有同樣的感受:“國家不停地建設大型計算設施,在面向用戶方面做得不夠。”蘭州大學也建設了計算中心,但因經費不夠,無法擴容,已經停止使用。
[page]
“共享粒度還是不夠,從長遠來看,我們還是要建設全校計算中心。另外,研究者有需求,只能從課題里出錢,還要讓教授考慮電、空調這些瑣碎的問題。類似的機制需要突破。”蘭州大學實驗室與設備管理處處長陳文波說。
在我刊2013 年底針對全國30 所985/211 高校的“科研信息化”調研中,問及“是否有適當的軟硬件(網絡、軟件、硬件)支撐科研活動中的計算需求”時,有25所學校回答“有”,而有5 所學?;卮?ldquo;無”;而在問及計算能力是否足夠時,有18 所學校認為“足夠”,另外12 所學校認為“不夠”。究其原因,說明在高校中,計算能力的共享尚有欠缺,信息化專業人才缺失,在共享粒度上應有更細致的統籌安排。
美國喬治亞理工學院的胡泳濤博士十年來一直從事大氣模擬實驗研究,他每天都要跟大量的數據打交道,氣象、氣候和環境類的研究需要高性能計算機或超級矩陣計算系統,他認為美國高??蒲薪⒌募毩6鹊墓蚕頇C制值得國內借鑒。“現在計算機硬件的發展很快,一般好一些的服務器應該能夠滿足大多數的研究需要。計算能力是與人相關的,不僅機器到位,專業的人員也需要配備到位。”他說。
在喬治亞理工學院,每個系都有一個計算機維護小組,全職的大概2~3 個人,為系內的研究小組自行購買的設備提供軟硬件服務。當然,要是遇到大的環境模擬時,也需要用到大計算能力的服務,而這些計算能力的獲取相對簡單,喬治亞理工學院有自己的計算中心——PACE,本身具有學校級別的硬件投入,同時加上各個系單個研究小組的資金加入,可以形成超級計算能力。據胡博士介紹,PACE 由10 人左右的專職具有計算機學位的人維護和管理。
再往上一級,在全國范圍內,美國也有類似PACE的超級計算中心,例如由20-30 個大學以及美國自然科學基金會NSF 出資共同維護的UCAR(大氣研究大學集團),UCAR 擁有77 個大學聯合成員,它運用從進行氣候和天氣模擬的高端計算機到裝有密密麻麻儀器的飛行器,研究涉及大氣及與之相關的地球科學。UCAR 同時管理著美國國家大氣研究中心NCAR。“每一個UCAR 成員單位的學生或研究人員,可以得到免費機時服務的。”胡泳濤說。
這種層層遞進,又互相補位的計算能力,使得科研工作者隨時可以根據自己的需求,確定采用什么樣的計算能力。反觀國內,這種機制還有欠缺。
“學院的科研管理歸在科技處,但學院里連網絡維護專職人員都沒有,信息化只是自發的行為。高校崗位設置決定了科研人員和實驗人員都有明確的教學任務,沒有專職人員去做信息化的工作。”華南理工大學信息辦主任陸以勤說。多數受調研的學校也一致提出類似的問題,計算能力的不均衡,其背后的原因更重要的是專業信息化人才的缺失。
國家高性能計算CNGRID 的首席科學家錢德沛教授也看到了這一現狀,他提到高性能計算應該以服務業的形式來體現,方能盤活我國目前的計算能力。“未來,中國國家網格服務環境CNGRID 將成為IaaS 和PaaS,在應用社區和網格服務環境之間建立起商業模式,目的是要促進高性能計算服務業。”他說。
[page]
呼吁數據開放共享
我國各大科研院校機構中,散落著海量的科研數據。在我刊在調研中,當問及“學科數據庫是否為社會提供服務”時,30 所211 高校中僅有8 所學校提供了服務,多數學校未能提供服務。原因主要歸結為項目管理不規范、信息技術支持人員缺乏、數據標準不一、提供服務有障礙,等。
華南理工大學陸以勤教授認為:“國家的科研項目管理過程存在問題,國家大項目召開的國際會議也不對公眾開放,在實際科研中,都是從國外獲取資料,國外的科研項目過程資料都很集中和規范,而國內項目材料要么不公開,要么零散,幾乎沒留下什么東西。”
當下,大學利用數字文獻已經成為一種習慣,復旦大學有一組對比數據充分說明這一點,2005 年,復旦大學購買文獻資料的經費中,紙版文獻為2053 萬元,電子文獻資料為505 萬元,紙版與電子的投入比例為4:1;2010 年,這一比例上升為2:1,即紙版文獻為2100 萬元,電子文獻資料為1097 萬元。去年,這一比例則達到了1:1。
而與加大投入形成鮮明對比的是,文獻、信息數據共享壁壘重重。
如同數字圖書館的發展,由于信息數據使用缺乏相應的機制,眾多研究機構都在數據共享的問題上爭持不下,并且,數據共享還有走回頭路的跡象。
從上世紀九十年代初起,中國工程院孫九林院士就從事地理數據的分析與利用,他對國內科研數據的共享過程深有體會:“2000 年左右,我們調查數據共享,當時非常踴躍,但是現在卻在走回頭路,什么問題呢?很多人看到數據非常重要,就不愿意共享了。現在對數據越抱越緊,即使是科研部門內部,共享情況也不樂觀。”
蘭州大學大氣物理所所長田文壽教授也一樣遇到這樣的困境:田教授2005 年從英國回蘭大,他研究大氣氣溶膠,涉及到學科交叉比較多,災害預警管理系統、地質信息、大氣數據信息、人口信息、儀器設備等多個單位的數據,需要很多單位的協調和共享。然而,發現國內與英國在科研環境上有許多差別,尤其數據獲取的困難帶給研究工作諸多障礙。
中國海洋大學的錢教授提到:“我們遇到的挑戰是,在國內獲取數據比從國外還要困難。”在海洋大學,內部對科研數據共享有一個期限,一兩年之內(課題組有優先使用權),原則上通過學校數據中心,普通教師可以獲取。(除非是保密數據,需要有一定的審查。)然而,由于機制所限,中國海洋大學的科研數據原則上不提供對外服務。“不共享,我們是無法獲取到他人的數據的,這也是導致我們現在缺少基礎科學數據庫的最大原因。”錢教授說。
而與此形成鮮明對比的是,美國國家海洋氣象局(簡稱NOAA)的氣象數據,中國海洋大學基本上延遲三個小時就能獲取。美國國家海洋數據中心(簡稱NODC)匯集了全球最大的并可公開查詢的海洋數據,其數據的使用基本面向科研工作者免費開放,無論是對提供者,還是對使用者。
據了解,美國科研機構對數據(不論是觀測到的還是加工過的)的應用,大致可以分為政府(包括聯邦和州)機構制造的,比如氣象局觀測的、預報的、環保局觀測的、計算的、NASA 觀測的和繁衍的,以及資源人口普查數據等等。在美國,除非是機密,前兩類數據是法律規定必須公開的。
為此,華南理工大學陸以勤教授建議,應建立統一的科研項目管理系統,以利于數據共享及各類數據庫的建立。“目前各類型項目要求都不同,各自建設,重復建設而且使用復雜。從國家層面上,項目管理系統應該是統一的,項目管理系統應具備開放性、系統性和全面性,把上級部門、管理人員和科研人員很好地結合起來。”他說。