2014年4月17日,第22屆中國數字廣播電視與網絡發展年會(CCNS2014)暨“第13屆全國互聯網與音視頻廣播發展研討會(NWC2014)”在安徽合肥正式拉開帷幕,廣電總局科技委副主任郭炎生、廣電總局科技委副主任杜百川、中央人民廣播電臺總工程師錢岳林、中國國際廣播電臺總工程師王聯、中國工程院院士總局科技委特邀高級顧問陳左寧女士等嘉賓參與會議,中國工程院院士、總局科技委特邀高級顧問陳左寧女士在大會上作出題為“面向大數據的數據中心建設”的演講。
大數據時代的數據中心基礎設施,數據本身是一種自然資源,大數據中隱含著大量的價值,大數據已經引入新的科學門類——數據科學,大數據具備價值密度低,總體價值高有別于傳統海量數據的本質區別。同樣,大數據本身來源于原始數據,各類傳感器,同時還有再生數據,數據中心和高性能計算機產生的數據,經過整理和組織,再經過提煉和追溯,最后形成預測、判定與決策,同時數據可以作為進一步提煉的源泉,目前Google大數據中心,大數據時代的奠基者,是行業大數據技術架構的標桿和示范,Google已經建立了世界上最快、最強大、最高質量的數據中心。
大數據工程中,如何聚合數據?如何將大數據變小?以及如何進行大數據的價值提煉?成為了目前工作重點。
常規數據結構相對比較簡單,處理方法為模型化參數化的處理方式,大數據本身稠密與稀疏共存,冗余與缺失并在,動態與靜態互現等問題存在。
大數據與傳統數據的區別以及本身的挑戰給支撐他的大數據數據中心提出了相應的挑戰,原來理解的數據中心有兩類,一類是高性能的計算中心,這一類數據中心,從應用領域來看,是科學與工程計算,新一代數據中心面向海量的信息處理,傳統高性能數據中心以數據靜態處理為主,現在已流式動態數據處理為主;處理類型從計算密集為主,新型數據中心需求以數據密集和計算密集;任務特點上,傳統任務比較單一,而新型數據中心任務多樣、多變并且高并發。
新型數據中心需求,應具有的特征在于:
面對增長迅速的數據存儲與處理要求,首先要有在功耗、成本容忍以及服務質量保證的前提下的高度可擴展基礎架構。
圍繞數據分析、挖掘逐步“融合”、“精煉”、“提純”過程,基礎設施應由以計算設備為中心,轉變為以存儲設備為中心。
容忍相當局部故障前提下,整個數據中心的可靠性乃至數據的可信性。
對大規模設備自我管理、自我修復的自動化功能。
有效解決數據集中處置帶來的數據安全性問題。
大數據中心的挑戰:
如何適應大數據中流式數據的高吞吐和高并發處理?
如何提高大數據中心中心基礎設施的效能?
如何保障大規模的數據中心基礎設施的長效運行?
數據中心軟件要素對數據傳輸、計算處理、存儲管理、分析挖掘等提出了更多的要求。
大數據中心技術趨勢——融合。數據的融合就是關系型的,非關系型的數據科學,以數據融合為主要需求進行支撐,其中包含架構融合——架構扁平化;數據中心的軟硬件融合,體現在RDBMS一體機在軟件硬件緊密結合下能夠告訴處理和節能降耗;計算融合,最早的大數據來源于搜索,需要引入更多的計算模式,包括流式計算、圖計算、批量計算等等,這種數據中心就需要統一調度計算模式的融合;計算存儲融合,比方說大數據實時分析,基于MPP的分布式計算;網絡融合,為支持不同應用必須要用到不同網絡,多套網將管理成本維護成本增加,網絡融合新的大數據中心會有很好的融合,除了基礎協議同時存儲協議也能在上面跑;通過網卡進行遠程數據訪問;存儲與網絡的融合,在數據中心用SDN架構,控制與轉發分離,網絡資源虛擬化,通用硬件/軟件可編程化。
陳左寧女士介紹了她在行業數據中心構建中的構想,多數據中心信息規模急劇膨脹、各種業務數據的實時處理、海量數據的統一存儲管理、業務數據的綜合分析提出了更高的挑戰,開放式系統設計:數據中心基礎平臺,遵循數據中心標準規范,實現數據中心可擴展,服務化的要求。行業大數據中心,采用一套數據中心支撐環境,多套分布在各個工程中的數據中心基礎平臺。