不可否認我們已經身處大數據洪流中,無時不刻的體驗著大數據帶來的價值。面對大數據洪流,數據中心已經迫在眉睫的需要變革,數據中心的基石IT基礎架構也需要轉變。近日LSI存儲解決方案部執行副總裁Phil Brace來華接受了記者的采訪 ,Phil Brace是LSI公司存儲解決方案部門的執行副總裁,之前負責所有針對硬盤驅動、企業級磁帶市場以及SSD市場的芯片解決方案。目前主要負責LSI企業級以及客戶端存儲業務,包括硬盤SoC 和前置放大器、RAID芯片和控制卡、SAS存儲控制器和閃存存儲處理器業務。Phil Brace結合LSI的產品闡述了自己對于大數據洪流下,數據中心變革的理解。
大數據時代機遇與挑戰
移動互聯時代,我們每時每刻感受著數據量的沖擊,當前每一分鐘就有2.4億封郵件被收發,同時也會有長達幾十萬分鐘的視頻在網絡上流通。而且數據的增長不會停止。大量的結構化數據以及非結構化數據改變這個世界以及我們的工作和生活。爆炸式的數據增長給IT基礎設施帶來機遇與挑戰。如何處理這些數據以及通過大數據分析為人類社會發展帶來價值?數據中心IT基礎架構面對大數據的技術挑戰如何應對?都是值得人們去探討。
Phil Brace舉了兩個現實中的例子,來展示一下有了大數據,并對大數據進行分析能夠帶來什么樣切實的效果。
首先是通過大數據分析能實現對自然災害的快速響應,2012年10月颶風Sandy使得美國東海岸24個州受到影響,如果沒有超級計算機對于大數據的分析,此次災害影響會大很多。通過超級計算機對成千上萬個數據源分析,做了一個23小時多達760 Data sources的分析,每一天都會做這樣的仿真模擬的分析,每小時采集的數據量是1TB。預測實時的風速、水的溫度,為颶風周邊30英里內造成的影響提供預測,幫助政府可以及時在颶風降臨之前,做好人員撤離災區,對災難進行應對,準確的數據和實時應急響應挽救了更多的生命。
其次是對數據分析掀起醫療革命,大家知道人類基因組圖譜的繪制對于醫學來說是偉大的一件事情。從2000年開始一直到2013年,總計投入了數以十億美金的投資,來做人類基因圖譜的解析。但是現在,過去需要13年完成的基因組工作,現在在一個月內就可以做完。可以想象一下,一個基因是0.5TB的數據量,有幾萬個基因要去分析,有幾十億個病人要分析不同的基因,所以單指在醫藥一個領域,大數據就可以為我們提供巨大的價值。
其實還有很多領域,比如智能的能源、交通、視頻監控等等,有很多應用案例。比如只是在倫敦一個城市,就安裝了500萬個攝像頭。所以大家就可以看到大數據的意義何在。
大數據推動計算架構轉型為數據流架構
通過案例我們可以總結大數據具有三個特性,多元、海量、高速。多元是在數據源的來源可以來自各個方面。手機、記錄、結構化、非結構化等等成千上萬的數據源。海量是指大數據當然是指海量的數據,我們估計在2012年的數據總量達到2.8ZB。到2020年,預測是有40ZB的數據量產生,也就意味著在這段時間里會有一個數據20倍的增加量。高速是我們每一分鐘每一小時都會面臨非常多的數據涌入。總之一切都需要我們在多元、高速、海量的數據中分析提取出真正有價值的數據。
如何提取有價值的數據?分三步驟,首先是從不同的數據源采集各種數據(需要計算能力創新),其次需要保存這些數據(需要存儲能力的創新),最后需要對數據進行分析(需要軟硬件結合快速融合的解決方案)。因此需要對現有的工具、產業環境以及基礎架構進行創新。“第一是我們要有工具,工具就是像Hadoop這樣的一些框架協議,它能夠分析大型的數據。第二是需要開放的生態系統,比如說像Openstack,及其它的開源項目。第三是IT基礎設施,我們需要硬件軟件的結合去處理大數據。”Phil Brace講到。
可以看出,貫穿云的大數據,整個IT架構從“計算”架構轉型為“數據流”架構。企業將面對更多更復雜的數據傳輸、共享和存儲的壓力。對于IT基礎架構及解決方案帶來了全新的課題。
順應大數據 LSI不斷技術創新
知道如何提取有價值的數據步驟之后,通過怎樣的技術實現數據采集、存儲以及分析?LSI提供的產品和技術示范滿足數據中心基礎架構規模及經濟性?Phil Brace 全面介紹了LSI全面的產品與技術。Phil Brace認為當前面臨的不再簡單的是一個計算的系統,而是一個數據流的系統。
如何更好的去采集、存儲以及分析數據,首先介紹第一個領域,數據的采集。我們面臨著各種各樣的數據源,面對豐富的資源類型和數據格式,各種服務和計費要求。需要保證服務質量與安全。“無線基站里面有一個器件是多核的處理器,正是因為有這樣的處理器,它能夠以線速動態的捕獲整個網絡流量的情況,知道現在進來的流量優先級別是如何的。”Phil Brace講到。LSI提供的異構多核處理器Axxia以及可定制化芯片為數據采集提供充足的引擎。
LSI提供怎么的存儲產品?從采集再到保留數據,也就是存儲的部分。在整個架構中,我們要去存儲、保留數據,要求就是你的容量必須是可擴展的、利用率要高、高可用性、保證數據的完整性,核心的挑戰是什么呢?就是它的復原力,要有非常低的宕機時間(故障時間少),低成本條件下的高可用性性以及低錯誤率。Phil Brace重點介紹了如何解決閃存存儲面臨的復原力的挑戰。他談了LSI最新的技術亮點。
第一,LSI支持東芝19nm閃存,LSI SandForce SF-2000閃存控制器現已支持東芝第二代先進19nm NAND閃存存儲器,使SSD制造商能夠制造出成本更低的SSD產品。每Gb的Flash成本降低了,單位存儲數量更高了。這樣就面臨一個重要的技術問題,因為Flash越做越小,它可以用來存儲電流的電子數量也越來越小了,所以導致它的錯誤率提高。
為了解決閃存錯誤率高的現象,LSI創新了新技術LSI SHIELD技術。這是一種高級的糾錯方法,即便同時使用出錯率較高的廉價閃存存儲器也能實現企業級的SSD耐久度和數據完整性。為了讓大眾通俗易懂,Phil Brace比喻:假設你在跟我用英文進行對話,我的英文是有口音的,可能某一個單詞你聽不清楚到底我說的是什么,但是根據前后的單詞你可以判斷出這個詞是什么,這就是SHIELD來做糾錯的原理。”也就是通過分析錯誤碼前后的數據高頻率的實現閃存糾錯。
關鍵是當我們面對閃存九千次/秒的編程擦寫速度,BCH、LDPC因為錯誤碼太多不能糾錯,但是SHIELD的技術仍然沒有問題。即使又提高了一倍,到一萬八千次/秒讀寫的速度,這時候出現的錯誤點基本上已經沒法糾錯了,但是SHIELD仍然能夠達成目標。
還有一個亮點是LSI的可擴展能力技術,針對典型數據庫應用,通過LSI DVC(DuraWrite Virtual Capacity)功能,其規劃出的虛擬容量可以達到原物理容量的三倍。可以理解為新增的虛擬容量可以顯著降低用戶每GB的用戶存儲成本。“這個壓縮技術是軟硬件結合的。其實我們看到其底層的技術,把它叫做動態壓縮,指的是我們可以動態的改變頁面的大小,比如一般來說有16K的大小,但有的時候它不是16K,可能要變得更小。所以這個時候我們就用軟件來做這樣一種映射,然后動態的調整頁面的大小。”Phil Brace講到。
接下來談數據的分析。LSI提供服務器與存儲連接解決方案以及PCIe閃存解決方案。數據的高速傳輸就是我們面臨的挑戰,即如何提高數據的效率,同時有高容量、高性能、低成本、低功耗。LSI方案采用6Gb/s驅動器獲得126Gb/s的性能。LSI推出了Nytro新的產品系列,目的就是降低延遲,提高響應速度。
通過數據的采集、存儲和分析,三個領域的深入分析,LSI不斷解決解決用戶在大數據方面的技術難點。最后Phil Brace講到“我們現在已經從PC時代進入了移動計算的時代,未來的下一個時代是什么呢?就是以數據為中心的時代。而大數據三個特點,多元、高速、海量。以及未來基礎設施有足夠的規模以及經濟性,這些因素推動移動計算的架構到數據流的架構的轉換。為了順應這種變化,LSI必須有智能的芯片解決方案,比如閃存、可共享的DAS的架構,以及異構的多核的處理器。為我們剛剛邁進全新的數據中心時代做準備。 ”