繼物聯網、云計算之后,“大數據”已迅速成為市場和用戶爭相討論的熱門科技概念。那么究竟什么是大數據呢?調研機構IDC認為,某項技術要想成為大數據技術,必須滿足IBM所描述的三個“V”:即多樣性(variety)、大容量(volume)和時效性高(velocity)。多樣性是指數據應包含結構化的和非結構化的數據;大容量是指聚合在一起供分析的數據量必須是非常龐大的;時效性高則是指數據處理的速度必須很快。
在2011年,“大數據”的概念已經賺足了人氣,調研機構IDC數字宇宙在2011年6月的報告顯示,全球數據量在2011年已達到1.8ZB,在過去5年里增加了5倍,而到2015年將達到近8ZB。進入2012年,大數據絲毫不會放慢增長的步伐,全球制造業、政府、零售商、金融等眾多機構已經陷入“數據爆炸”的困境。
尤其在互聯網和電信行業中,隨著移動互聯網的不斷創新強大,海量數據蜂擁而至,更多新的數據形式也不斷涌現,現在的數據早已不是結構化的了,還摻雜了包括辦公文檔、文本、圖片、網頁、報表、音頻、視頻信息等很多非結構化數據,這為傳統的數據處理帶來了新的挑戰。
隨著數據量的急劇增長,以及對數據在線處理能力的要求不斷提高,海量數據的處理問題越來越受到關注。在金融、電信等領域,都需要通過對大量的用戶數據進行分析,才能做出相應的決策。對互聯網數據進行存儲和處理的海量數據處理系統也開始向數據密集型計算系統發展。
數據密集型計算系統特點
數據密集型計算系統不僅需要存儲超大規模的數據,還需要對這些數據進行復雜的計算與分析。由于對數據密集型大規模計算系統的需求越來越多,人們也越來越關注。不同于已有的分布式計算或高性能計算,數據密集型大規模計算的特點可以概括為兩個方面:
海量的數據集:通常在PB級。這意味著對于一次計算任務而言,獲取所需的數據所花費的時間將是不可忍受的,這完全不同于以往的計算系統,同時也給數據密集型大規模計算系統的設計與實現帶來了新的挑戰。
復雜的計算過程:簡單地將數據進行分塊處理已經不能滿足數據密集型計算的需求。即使是對互聯網數據的分析也開始具備科學計算的復雜性,這種計算的復雜性為局部性的優化和數據管理帶來了新的挑戰。
由于數據密集型大規模計算系統的研究還處在起步階段,對于數據密集型大規模計算系統的體系結構設計仍在探索中,目前在對系統結構方面的研究中,重點大多集中在如何使計算盡可能地靠近數據。但是,當大規模計算的數據量超過1PB時,傳統的存儲子系統已經難以滿足海量數據處理的讀寫需要,數據傳輸I/O帶寬的瓶頸愈發突出。
因此,數據密集型計算系統在系統結構方面面臨的最大挑戰其實是如何在存儲超大規模數據量的同時,保證存儲系統與計算系統之間的I/O帶寬。海量數據處理系統面向的應用是處理大量的數據,所以其設計關鍵是如何組織存儲資源以獲得高速的I/O吞吐率以及海量的數據容量。
[page]
大型機打破I/O瓶頸 強化安全
在2011年,IBM就提出了“智慧的運算”概念,其內涵包含大規模數據整合、優化的系統,以及云計算等新興服務交付模式。伴隨著全新的zEnterprise 114大型機產品發布,zEnterprise System企業級大型機已經作為“系統中的系統”來全面實現“智慧的運算”。
眾多周知,除了RAS外,大型機的設計被公認用來處理大容量的I/O應用。IBM大型機的設計中包括一些輔助電腦來管理I/O吞吐量的通道,而讓CPU解放出來只處理高速內存中的數據,每一個I/O通道都能同時處理許多I/O操作和控制上千個設備。利用大型機處理數據中心超大數據是已經是十分常見的情景了。
相比于x86服務器,大型機經常是同時處理上千個數據流。并且能保證每一個數據流的高速運轉。在軟件方面,IBM提供一種高性能操作系統IBM z/TPF,專為具有高需求、高容量、實時事務處理需要的組織提供高可用性而設計。
此外,隨著高度分布式的計算、廣泛的在線協作和異構IT環境的結合,對數據的依賴性已越來越高,使得信息安全比以往更加關鍵和復雜。由于IT基礎架構更加開放和多樣,安全威脅正在加劇,并變得更加難以管理。
在安全性方面,IBM大型機具備得天獨厚的優勢,System z大型機具有一種高度安全的設計,可幫助減少如今分布式、協作、多平臺環境中的數據破壞風險。安全構筑于大型機結構的每個層級,包括處理器、操作系統、通信、存儲和應用。
除了異常強大的安全基礎,得益處于IBM Security Solutions“Secure by Design” 計劃,大型機從一開始就將安全性構筑到IT基礎架構內。該計劃的目的就是幫助企業將安全性整合到內部的服務結構中,并融入到業務流程和日常操作之中。
而且,IBM也已將“Secure by Design”計劃考慮到軟件設計中,針對于大型機的IBM Tivoli和IBM Information Management安全產品支持“Secure by Design”背后的理念,并提供用戶管理、資源保護以及審計與合規性報告的解決方案。這也使得在目前分布式、多平臺計算環境中,大型機更加適合于作為企業集中的安全中心,來支持和管理多個混合環境,以最大限度降低混合環境中的風險。