東北大學東網科技有限公司的超算和云計算中心。
雖然大數據早已不是什么新鮮詞,而且大家都能說上兩句自己心中大數據的模樣,可一旦細究起來,到底什么是大數據,大數據從何而來,如何應用,相信不少人就說不清楚了。
由東北大學、沈陽市政府及戰略投資者共同投資成立的東北大學東網科技有限公司,其超算中心和云計算中心擁有1170萬億次/秒計算能力、30PB云存儲空間。目前,東網科技與沈陽市環保局合作,正在通過大數據技術開展大氣環境監測預報。懷揣著對大數據的好奇,記者走訪了這家公司。
獲取10%的信息量,預測剩余90%,這是小數據;而掌握90%的信息量,預測余下的,則是大數據
在一片尚未平整完畢的荒野中,矗立著一座極具現代科技感的建筑物:深藍色的圓形玻璃幕墻、航空級別的安保設施。此種場景,和美國科幻大片中看到的場景倒有幾分相似。
經過一系列安保檢查,記者得以進入東網科技的超算中心和云計算中心,一臺臺超過2米的黑色機柜密密麻麻地排列在機房中。“左手邊是超級計算機,右手邊是云存儲器”,東網科技工作人員許冕介紹說。
這和大數據有什么關系?“超算能力和云存儲就相當于大數據的大腦,是大數據必備的硬件條件”,東網科技總經理楊寶衛打了個比喻。對于東網科技擁有的1170萬億次/秒的超算能力,楊寶衛說,這在目前國內的超級計算機中名列前茅,而30PB則是一個存儲容量,相當于約50萬個容量為64GB智能手機存儲容量總和。
那到底什么是大數據?從網絡上查詢,答案五花八門。“針對某一事物,如果了解了10%的信息量,預測剩余的90%,這是小數據,需要抽樣然后概率分析;而掌握80%—90%的信息量,預測余下的10%—20%,則是大數據。也就是說,大數據是對某一事物的樣本空間的覆蓋,通過智能分析,對事物進行預測預報”,楊寶衛試圖用最簡單的話來說明他所理解的大數據。
對于大數據,楊寶衛趣稱為“經驗主義的復活”。過去我們是通過觀察和經驗,經過大腦的分析總結后,指導人類活動,比如一些天象的觀察等。后來,人類發展到一定階段后,信息越來越多,人腦計算不過來,就發明了電腦來幫助處理信息。現在的超算就能夠幫助處理更多的信息,而大數據下的超算,就是通過大量可信賴樣本提供的經驗,對復雜事件進行計算和預測。
天氣預報就是個直觀的例子。人類能夠進行天氣預報,是因為一個事物通過足夠的數據完全可以在數字世界里進行虛擬的演化。那么對天氣預報來說,我們把今天的天氣數據放到電腦里,在虛擬世界里模擬天氣的變化。或許超算只需要10分鐘,就可以預測某地3天后的天氣狀況。
大數據技術包括數據采集—傳輸—集中存儲—再處理—再應用等過程,其中采集是關鍵
大數據來自何方,通過什么途徑我們可以獲取這些數據?不少人直觀的感受是:數據主要來自于互聯網。
楊寶衛認為,獲取數據目前有三個渠道:第一,來自于互聯網的數據。比如阿里巴巴的交易數據、百度的查詢數據、騰訊的交流溝通數據,“這些還都是外圍的”。
第二,來源于政府的數據。這才是真正的核心數據。比如經濟運行數據、人口數據、地理數據、政府服務數據、公共服務數據。
第三,對原有世界的數據再次采集,這源于我們更多更先進的技術手段采集到更多的數據,這就是如日中天的物聯網。我們要讓每一個物體都是傳感器,時刻在回傳數據,物聯網的發展會極大地豐富數據。
然而,大數據真正的核心數據——政府所掌握的數據目前大多都處于“死機”狀態,如何激活還有待探索。業內許多專家呼吁,在保證信息安全的基礎上,政府可開放一些并不敏感的數據,實行數據的可交易、資產化,據了解,上海已經開始建設數據交易所。
楊寶衛認為,大數據技術包括數據的采集—傳輸—集中存儲—再處理—再應用等一系列過程。其中,數據的采集是關鍵。
“大數據并不是今天做,明天就有,它是臺階式的發展。我們目前就在某些領域里進行數據收集和智能分析,讓它能夠預測預報”,楊寶衛介紹說,比如目前中心與沈陽、本溪合作建設智慧城市,就是把一些相關信息進行集中,同時中心還從事互聯網的一些商業應用。這些都是數據的采集和集中。
采集之后,就是傳輸環節,如何能夠快速地傳輸?這涉及運營商、基礎設施通訊等方面。接下來是數據存儲環節,也就是云計算中心的價值所在。然后是數據的處理和再處理,這就要用到超算。最后就是數據的再應用,這是各個軟件公司、信息服務公司要做的事情。
隨著在醫療、環保、航空等更多領域的廣泛應用,大數據將實實在在地改變人們的日常生活
業內專家認為,如果把大數據比作一種產業,那么這個產業實現盈利的關鍵,在于對數據的高加工能力,通過加工實現數據的增值。簡單地說,就是大數據要實現高效應用。
“目前,東網科技已經在大數據應用方面做出努力和嘗試”,據介紹,針對霧霾天氣,東網科技公司自2013年10月起就與沈陽市攜手創建了“環保云”。東網公司與沈陽市環保局就空間信息需求對接,為PM2.5監測治理提供解決方案。公司首先啟動了沈陽市市轄區未來三天大氣污染狀況預報項目,利用自主研發的大氣成分反演模型和遙感數據處理軟件,進行沈陽市冬季供暖期大氣環境監測預報,為排放管控和污染治理提供科學手段。
“大數據技術可以促進醫療、環保、教育等民生問題的解決”,楊寶衛說,隨著大數據技術的進一步完善,其應用必將給人們的生活帶來實實在在的改變。“給早產兒戴上傳感器,可以分分秒秒收集他(她)身上的海量個人生理信息,通過數據分析就能找到這個嬰兒在將來出現感染的幾率從而及早預防;收集飛機飛行時的空氣信息,以實現飛機的自動飛行。”這些場景都將逐步實現。城市將更聰明,生活將更智慧。
據介紹,基于大數據技術,還可模擬基因的演化,藥廠也可以用計算機進行成千上萬的病例與藥物的作用演化。水稻種植實驗,一個品種在種下去一年后,才能看得到結果。未來只要把基因數據放入計算機,很快就能看到結果,這樣可以大大加快科研進程。
大數據技術的發展也引發了人們對于信息和隱私安全問題的擔憂。楊寶衛對此持樂觀態度:通過發展技術、加強管理、完善法律等多方面的努力,問題將逐步得到解決。