最近去武漢參加第八屆全國測試學術會議,包括硬件測試、軟件測試,碰到許多老朋友和新朋友,大家議論了許多。我和大家交流了在CACM上看到的“Big data meets big science”,也頗有感觸。
在斯坦福的國家加速器實驗室,大氣觀測望遠鏡到2020年要安裝一個32億像素(3.2GP)的照相機,10年以后每晚每隔15秒攝取極高分辨率的天空圖像。該系統需要存儲10億億字節(100PB)的數據,相當于2000萬個DVD。當然,通過這個照相機獲得的原始數據比這還要多得多。這個照相機的視野里面有400億~500億天文目標。長久存儲這些像素幾乎是不可能的,只能實時處理和提取關鍵數據。大型科學儀器,從大型強子碰撞型加速裝置到高級光束處理器和分子成像工具產生大量數據,是目前的并行超級計算機所無法處理的。
可目前看到的現實是:1.摩爾定律已經失效,因為晶體管尺寸已經達到物理極限。2.超級計算機已經不能再這樣用CPU堆下去了。成千上萬,甚至幾十萬的CPU、GPU堆起來的超級計算機,耗電驚人,而并行計算實際上很難實現。大部分時間,CPU閑著,而Memory忙得要命。3.馮·諾伊曼計算機體系結構非改不可了。存儲—計算的方式已經不適用新情況。對于許多應用來說,實際的瓶頸不是處理時間,而是需要不斷地存取存儲器。
一個明顯的事實是,雖然我國的天河超級計算機幾次排名世界第一,但美國最近基本不參與這個排名的競爭,排第幾也不關心了。
對于大數據的問題,怎么解決?科學家們主要采取三個途徑:一個是從觀測開始各環節設法減小數據集;一個是從私人企業學習基于云計算的經驗;另一個是探索新技術,譬如量子計算。
量子計算對于破解密碼、因子分解、量子物理模擬可能很有效,但是,對組合優化、航空調度、絕熱算法是否有效,還很難說。所以,大科學產生大數據,大數據技術要靠大科學。物理學、光學、生物學、計算科學一起來,研究這些數據的收集、分發、存儲、處理。不能單靠計算機。我曾撰文說:大數據技術靠計算機,大數據分析要靠各領域的專家,現在看來,大數據技術也要靠大科學的專家。
在這樣一個創新的關鍵時刻,中國人應該有所作為。不要天天想著發SCI、投CNS、提職稱、發牢騷,想想這些大問題吧!但是,我跟與會的朋友們說,不管計算機怎么變,容錯計算是一個永恒的主題,在量子計算中,人們也在密切關注容錯計算。高端容錯計算機的實用價值就更不用說了,大家都懂得。
我想補充幾句話:微納電子產業現在還很興旺,市場仍然很大;超級計算機,特別是其應用還是要搞,從科學研究的角度講要有些前瞻性