精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

巧用Erasure Code 探秘浪潮大數據一體機的存儲高招

責任編輯:editor005

2014-12-29 11:21:26

摘自:CSDN

大數據由于與智慧城市、物聯網、移動互聯等前景廣闊的項目息息相關,成為時下最炙手可熱的IT技術。近日,筆者有機會近距離接觸到浪潮云海大數據一體機SDA60000,對Erasure Code在這款產品中的應用細節探了一回究竟。

大數據由于與智慧城市、物聯網、移動互聯等前景廣闊的項目息息相關,成為時下最炙手可熱的IT技術。在此背景下,眾多的IT廠商紛紛推出基于Hadoop的大數據一體機,力圖表明已經做好準備迎接大數據時代。不過,大部分IT廠商談及的幾乎都是產品特點和市場表現,一旦涉及具體的技術細節都深藏不露,例如近年來,Erasure Code作為可有效提升存儲效率、安全性和便捷性的新興存儲技術,備受IT和互聯網業界青睞,但卻對此技術秘而不宣。近日,筆者有機會近距離接觸到浪潮云海大數據一體機SDA60000,對Erasure Code在這款產品中的應用細節探了一回究竟。

眾所周知,Hadoop之所以問世,很大一部分原因是為了解決數據的分布式存儲問題。由此可見,存儲在整個Hodoop體系下的地位有多么重要。SDA60000作為一款面向大數據分析、處理的軟硬一體化產品,在存儲方面做了針對性的設計:硬件上使用了大容量的SATA硬盤,單機柜可提供700TB以上的裸容量;軟件方面,部署了浪潮在開源Hadoop基礎上做了深度優化后的浪潮云谷一體機系統軟件,通過HDFS文件系統實現對海量數據的快速存儲。這其中,Erasure code的巧妙使用,使得HDFS的存儲機制得到了進一步改良。

Erasure Code:互聯網巨頭們的“最愛”

Erasure Code 最早是無線通信中有噪信道編碼的一種,也叫糾刪碼。Erasure Code設計的初衷,是希望利用這項技術將數據分割成不可識別的數據塊,使用額外的信息追加到每個數據塊中,允許從一些數據塊的子集就可以復原完整的數據集,數據塊可以分布在一個數據中心、城市、地區或全球任何地方的不同存儲位置。這種方式將大大提升數據存儲的便利性和安全性。

從某種程度而言,Erasure Code 是對RAID 5 算法的改良和優化。最常見的Erasure Code是Reed Solomon算法。如圖1所示,假設總共有n塊數據,其中k塊用來存放數據,m塊用來存儲erasure編碼(k+m=n),只要壞掉的數據塊數量不超過m塊,都可以通過erasure編碼將其余的恢復出來。也就是說,通常k+m的erasure編碼,能容m塊數據故障的場景,這時候的存儲成本是1+m/k,通常m

圖 1 Reed Solomon Erasure Code 算法

當前,Microsoft、Google、Facebook、Amazon、淘寶等互聯網巨頭早已開始研究Erasure code編碼存儲技術,并將其實際應用到各自主流存儲系統中。

Google GFS II中采用了最基本的RS(6,3)編碼,將一個待編碼數據單元(Data Unit)分為6個數據塊(data block),再添加3個校驗塊(parity block),最多可容包括校驗塊在內的任意3個數據塊錯誤。

微軟在其云存儲平臺Windows Azure Storage中將校驗塊分為全局校驗塊、局部校驗塊。當發生任何一個數據塊錯誤時,恢復代價由傳統RS(12,4)編碼的12(通過網絡傳輸的數據塊數量),變為6,恢復過程的網絡I/O開銷減半。

Facebook HDFS RAID的早期編碼方式是RS(10,4),為減少數據恢復的網絡I/O,Facebook于VLDB 2013發表名為“XORing Elephants”的LRC編碼方法,除了在原先的10個數據塊之后添加4個校驗塊外,還將10個數據塊均分為2組,每組單獨計算出一個局部校驗塊,將數據恢復代價由原來的10降低為5。

采眾家之長浪潮SDA60000中的Erasure Code

當然,天下沒有免費的午餐,HDFS Erasure Code在提升存儲空間利用率的同時,由于數據校驗塊的計算需要額外的CPU時間,加上完整的數據塊只有一份,在高并發讀取時效果不理想。故此,應用Erasure Code需根據數據量和性能需求制定有針對性的策略:對于數據量大,存儲空間緊張,訪問頻度低的數據采用Erasure Code方式。

浪潮云海大數據一體機SDA60000借鑒了各大廠商的研發和優化經驗,采用Erasure code對HDFS的存儲機制進行改良,它采用的RS因子為RS(10,4),即為每10個數據塊生成4個校驗塊,每個集群可容忍最多4個節點失效,數據冗余度為1.4。通過Erasure code技術,SDA60000在保證了數據容錯的基礎上大幅提升了存儲空間利用率。

圖 2 SDA60000 Erasure Code 策略

如圖2所示,浪潮云海大數據一體機SDA60000可為HDFS的每一個目錄制定靈活的Erasure Code策略,通過制定RAID間隔,SDA 60000可以實時偵測特定目錄中數據的冷熱程度,當系統發現某些數據在很長一段時間沒有被訪問時,自動將底層的存儲機制從默認的三副本轉化為Erasure Code,以提升文件系統的空間利用率。

在實際應用中HDFS Erasure Code功能非常適合海量歷史數據的存儲,是圖片視頻數據,音頻數據和日志數據理想的動態歸檔方案,在政府、公安、醫療和科研等行業具有廣泛的應用前景。

相對于傳統的業務系統,大數據分析系統對于數據可用性和數據處理性能要求更為苛刻,浪潮云海大數據一體機將進一步發揮其軟硬件一體的優勢,一方面,優化軟件算法并針對硬件情況調優參數,另一方面,借助于浪潮強大的硬件研發能力,通過FPGA(Field-Programmable Gate Array)加速卡,SSD緩存加速等技術加速編碼速度,提升磁盤IO性能。

浪潮是領先的云數據產品及方案供應商,目前已全面涉足軟件定義數據中心,強調以硬件重構和軟件定義相結合的融合架構,來實現數據中心所有資源的全虛擬化、全自動化,更好的滿足大數據、云計算應用對IT基礎架構的要求。浪潮云海大數據一體機SDA60000作為一款融合架構產品,將是未來軟件定義數據中心支撐平臺的重要選擇之一。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 昌邑市| 宁晋县| 惠水县| 厦门市| 松江区| 吉林市| 甘泉县| 府谷县| 荃湾区| 民丰县| 天峻县| 潜江市| 康保县| 施甸县| 东宁县| 西安市| 玉环县| 西昌市| 新泰市| 嘉黎县| 东丰县| 克山县| 忻城县| 邯郸市| 五寨县| 阿巴嘎旗| 昭平县| 惠来县| 三门县| 嘉荫县| 新竹县| 澎湖县| 岗巴县| 延津县| 梅河口市| 积石山| 福清市| 焦作市| 潮安县| 噶尔县| 林周县|