“數據大爆炸”正對大容量存儲技術提出越來越迫切的需求,而在該領域,上海已取得重要進展。昨天,市科委重大項目“PB級海量存儲關鍵技術研究與應用示范”正式通過專家驗收,相關成果有望為“大數據時代”提供核心基礎設施。
研究顯示,未來10年,人類新產生的數據量將是現在的1000倍。要對這樣大規模的數據進行分析、挖掘,從而創造出更大的價值,首先必須想辦法把數據存下來。
昨天,在上海醫聯工程(市級醫療信息共享平臺)數據中心,記者看到了“PB級海量存儲”項目的首個典型應用。那是一臺冰箱大小的機柜,別看它不大,卻能存儲200T字節(1T字節等于1000G、或1萬億字節)的數據。課題負責人告訴記者,該存儲系統的核心部件完全基于自主知識產權技術。全市34家大型醫院的CT、核磁共振等醫學影像數據,大部分就存儲在這里。在任何一家加入醫聯工程的醫院,醫生想要調閱某個病人曾做過的影像學檢查報告,只要動一動鼠標,系統就能迅速從“圖片海洋”中調閱到所需內容。這樣,病人不必做重復檢查,醫生也能更好地作出診斷。
實際上,這個機柜只是“PB級海量存儲”項目的小試牛刀。據介紹,它最大的存儲能力比現在大300倍,達64P字節(1P等于1000T),用于存儲影像,完全能應對未來15年上海醫療的需求。根據上個月發布的《上海推進大數據研究與發展三年行動計劃(2013-2015年)》,醫療被定義為推進大數據應用的重要領域。因此可以說,該項目已經開始以大數據的角度服務城市和民生。對于上海在海量存儲方面的技術突破,著名存儲技術專家、上海交通大學白英彩教授心情激動。他告訴記者,“PB級海量存儲”項目目前已經達到國際先進水平,它能極大促進云計算與大數據在國內的應用。
白英彩表示,上海研發的該項目,其最大的技術亮點是采用了分布式、可擴展的系統結構。打個比方,如果把存儲比成運輸,那么通過增加硬盤來實現擴容,就相當于給火車頭加載車廂。在上一代存儲技術中,所有車廂(硬盤)都只是靠一個火車頭(數據處理節點)來拉,因此,一旦接近火車頭的動力極限,再增加硬盤就會變得徒勞。而這項新技術就像動車組那樣,每節車廂都配置了動力,因此能將存儲容量擴展到極高的水平,從而滿足大數據應用的需求。
昨天通過驗收的項目是由上海圣橋信息科技有限公司牽頭,聯合高校、應用單位等合作完成的,已申請專利10多項,發表論文30多篇。除了醫療,它還在石油、公安、視頻等行業得到應用。以石油業為例,新油田的勘探主要靠人工制造小規模地震的方法分析地質狀況。在潛在的油田上,大量分布的感應器將收集到海量的地震回波數據。以往,因為存儲系統的處理能力不足,技術水平不高,搜集到數據必須費周折轉給大型數據中心;而上海的海量存儲技術能讓勘探企業在現場直接對一手數據進行挖掘。
上海市軟件行業協會秘書長楊根興表示,海量存儲有潛力成為上海計算機產業新的發展方向。基于目前的成果,他建議上海應針對國內各個行業的需求,盡早做好大力推廣海量存儲技術的準備。