10月18日,國家重點研發計劃“云計算和大數據”重點專項科學大數據管理系統項目啟動會在中國科學院計算機網絡信息中心舉行。來自科技部、中科院、國家天文臺、清華大學、北京大學、人民大學、中科院計算機網絡信息中心等20多家單位的40多位科研人員參加會議。
科學大數據管理系統項目的啟動,標志著我國在科學大數據領域的科技研發工作進入正式實施階段。郭華東院士在科學大數據管理系統項目啟動會上指出,科學大數據的意義表現在兩個方面,一是改變傳統方法論,二是尋求科學新發現,希望項目能為廣大科學家提供一套高效、實用的科學大數據管理平臺,最終提升我國科學大數據驅動的科學發現能力。
事實上,隨著我國大規模巡天望遠鏡、大型粒子加速器、高通量基因測序儀等大科學裝置的迅速發展,科學數據以史無前例的速度急劇增長,科學研究快速進入了一個前所未有的科學大數據時代。
科學大數據促進科研發現的案例已數不勝數。在河北興隆,天文學家已經可以在這里使用世界上口徑最大的大視場光學望遠鏡LAMOST巡天,獲取在世界上遙遙領先的光譜數據,從2011年9月到2015年6月,經過3年巡天,LAMOST共觀測了2669個天區,已對外釋放了約570萬條光譜數據,其中成功獲取高質量恒星光譜462萬個,比世界上所有已知光譜巡天項目獲取的數據總數還要多。這些別國沒有的數據,讓我國科研占據了學術高地。
目前,我國暗物質衛星“悟空”、射電望遠鏡“FAST”、量子衛星“墨子號”等大科學裝置先后投入使用,每日產生PB級科學數據需要分析與處理,由于缺少有效的科研數據管理能力,原有的對數據的簡單存儲、分析與處理等方法手段已遠遠不能滿足當下科學研究對科學大數據的要求。有科學家形象的比喻這個過程,從無米下鍋到有米下鍋,但是如如何烹飪出一道“數據美食”乃至進行“菜品創新”還需要一個好的“廚房”。
面對科學研究對科學大數據管理提出的眾多問題與挑戰,為滿足科學家高效的管理與便捷的使用科學大數據需求,科學大數據管理系統因時而生。科學大數據管理系統將在技術上、系統上對大數據時代的科學研究形成有力支撐,大大加速我國科研上重大科學發現的進程。
以天文空間領域為例,空間站光學巡天將通過對數十億恒星與星系海量數據的統計研究,精確地測量宇宙學參數、暗能量狀態方程,檢驗宇宙學模型、引力理論,揭示恒星、黑洞、星系等天體的形成與演化的規律,科學大數據管理系統關注巡天觀測數據轉化為科學產出的關鍵環節,將為其科學目標的實現提供不可或缺的數據分析支持,為這些天文學與物理學前沿領域的重大突破提供線索,并期望革命性的新發現。
科學大數據管理系統將是一個從無到有、從小到大、從數據累積到讓數據促進科研創新的過程。科學大數據管理系統將實現對1000億行關系數據、100億條邊圖數據、EB級非結構化數據的高效管理,形成眾多運維調優工具,發表學術論文近百篇,并培養眾多科研人才。科學大數據管理系統同時提倡“我參與、我貢獻”的原則,鼓勵并吸引廣大科研工作者參與系統研發全過程,最終形成成果開放、共享的開源社區,為科技界服務。
作為科學大數據管理系統項目的牽頭單位,中科院計算機網絡信息中心長期承擔中科院信息化工作,擁有三十多年的數據庫管理經驗,構建了遍布全國的科研信息化基礎設施,形成先進的科技云環境,具備千萬億次計算能力和數百PB的存儲能力,研發了VDB、科學數據云等一系列大規模數據管理工具與平臺。同時,中科院計算機網絡信息中心擁有一批專業科學數據人才,為項目開展提供有力的支撐保障。
大數據時代科學研究是一個大科學、大需求、大數據、大計算、大發現的過程。當今的世界,科技競爭日趨激烈。沒有先進的數據管理與分析平臺,就沒有一流的科學發現,已經成為科研領域的共識。科學大數據管理系統將為整個科研過程保駕護航,成為大數據時代科技創新的“使能利器”。未來,科學大數據管理系統將創新治理結構,構建開放協同的大數據科研創新平臺,營造良好科研創新生態,孕育充滿活力的科研創新主體,成為我國引領性的科研創新增長極。