能夠為如此具有野心的科研項目工作可不是常有的事,不過我算是個幸運兒:這正是我每天在辦公室做的。我的工作是幫助設計“方形公里陣列”(簡稱SKA)的技術藍圖。在10個國家、上千名科學家、和上百個公司的支持下,SKA將成為世界上最龐大最強勁的射電望遠鏡、引領認知計算新領域的技術保證。
這架由3000個鋪灑在非洲南部和澳洲西部的碟片組成的巨型望遠鏡將通過回望最早的恒星形成之前的時間段、調整宇宙的未知領域來解決宇宙起源與進化的最基本問題。
更復雜的是,建造SKA系統是一個終極的大數據挑戰。每天,500000個天線會從外太空接收大小達到前所未有的14艾字節的巨量無線電信號數據。這個數據量是因特網每日產生的數據量的兩倍大小。
如何把這些來自于不同天線的海量數據整合到一起?如何存儲和區分這些數據?同時又如何節省可能消耗一整座小鎮的資源?回答這些問題要求在系統設計、存儲、分析和人工智能上的巨大進步。這個過程將會促進認知計算系統的產生,這種系統可以在處理數據的同時自我學習,能更好地理解我們需要知道什么。
SKA能夠并且必須促進認知計算。即使無線電信號被削減至每天一定預期拍字節的數據,那個量仍然是巨大的。只有能自我學習與思考的系統才能處理這些數據,區分哪些是重要的,哪些沒有那么重要。
專家們正在研究的第一步是教會系統辨認出那些天文學家感興趣的特定模式的數據,以能夠自動篩選出這些數據。下一步就要發明一種機器,可以確定某種特定模式的數據并展示給研究員,使研究員將之保存為信息。于是系統可以通過自我學習,知道去標記哪些數據。
想一下另一種挑戰。1個拍字節的有用數據,在3年后會變成1個艾字節的數據,10年后會超過3個艾字節。到時候又如何存儲這么巨量的數據?如果嘗試在計算機硬盤上快速訪問這些數據,你將會很快收到一份令人印象深刻的電費單。同時,計算機本身運算太快了,大部分人不會意識到計算機其實并沒有像之前那么快了。隨著我們收集更多的數據,我們會需要更明智的方法來跨越這些技術和成本的障礙。
認知計算在這里扮演了一個重要的角色。我們能夠創造機器,可以知道數據應該被存儲在哪里,是能夠在硬盤上快速訪問,是作為備份的磁帶,還是新一代的大容量閃存,并且對數據進行動態化和低成本的管理。