精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據存儲:擴展Hadoop的十大要點

責任編輯:editor005

作者:布加迪編譯

2016-10-20 14:09:35

摘自:51CTO

拉克希曼說:“你可以創(chuàng)建一個單一、經過重復數據刪除的壓縮數據湖,然后它可以為Hadoop的多個實例提供數據,從而獲得數據效率。

20世紀90年代,每臺應用服務器往往都擁有直接連接存儲(DAS)。創(chuàng)建存儲區(qū)域網絡(SAN),是為了提供共享的存儲池,以獲得更大的規(guī)模和更高的效率。Hadoop逆轉了這股潮流,讓DAS重新流行起來。每個Hadoop集群都有自己的、橫向擴展直接連接存儲。它有助于Hadoop管理數據局部性,但是犧牲了共享存儲的規(guī)模和效率。因此,如果你有Hadoop發(fā)行版的多個實例,就會有多個這種橫向擴展的存儲孤島。

Hedvig公司的首席執(zhí)行官兼創(chuàng)始人阿維納什·拉克希曼(Avinash Lakshman)說:“我們遇到的最大挑戰(zhàn)就是,兼顧數據局部性與規(guī)模和效率。”

數據局部性是指確保大數據集存儲在執(zhí)行分析任務的計算資源附近。對于Hadoop來說,這就意味著管理數據節(jié)點(DataNode),而數據節(jié)點為MapReduce擁有足夠好的性能提供了存儲資源。它可以高效地工作,但是導致了另一個操作問題:大數據存儲孤島。本文介紹的這些要點有助于管理Hadoop環(huán)境中的大數據存儲。

1. 分散式存儲

集中式存儲作為傳統(tǒng)架構已有一段時間。但是大數據其實并不適合集中存儲架構。Infogix的金融服務行業(yè)(FSI)戰(zhàn)略和運營經理森希爾·拉賈曼尼坎(Senthil Rajamanickam)表示,Hadoop旨在讓計算資源更接近數據,同時充分利用HDFS文件系統(tǒng)的大規(guī)模橫向擴展功能。

然而,解決Hadoop管理自有數據的低效問題的常見方法,一向是將Hadoop數據存儲在SAN上。而這帶來了性能和規(guī)模方面的一系列瓶頸。現在,你的所有數據都通過集中式SAN控制器來處理,而控制器破壞了Hadoop的分布式、并行化的特性。你需要為多個數據節(jié)點管理多個SAN,或者將所有數據節(jié)點保存到一個SAN上。

拉克希曼說:“由于Hadoop是一種分布式應用系統(tǒng),它應該可以在分布式存儲上運行,那樣你的存儲保持與Hadoop本身一樣的彈性。這需要你積極采用軟件定義存儲方法,在商用服務器上運行,但是它比把Hadoop放在傳統(tǒng)SAN或NAS技術上高效得多,因為后者給Hadoop造成了瓶頸。

2. 超融合vs分布式

不過要小心,別將超融合與分布式混為一談。某些超融合方法是分布式的,但這個術語通常意味著你的應用程序和存儲可以共同駐留在同一個計算節(jié)點上。解決數據局部性問題很誘人,但是這會造成嚴重的資源爭奪現象。 Hadoop應用和存儲平臺將爭奪同樣的內存和處理器資源。拉克希曼表示,最好在專用的應用層上運行Hadoop,在專用的存儲層中運行分布式存儲,從而充分利用緩存和分層技術,以解決數據局部性和網絡性能開銷。

3. 避免控制器阻塞點

他強調了做到這一點的一個重要方面――避免通過單一(或可能兩個)點(比如傳統(tǒng)控制器)來處理數據。通過改而確保存儲平臺并行化,就能顯著提高性能。

此外,這種方法提供了增量可擴展性。為數據湖添加容量就跟添加幾臺內置閃存或旋轉磁盤的x86服務器一樣簡單。分布式存儲平臺可在必要時自動添加容量、重新均衡數據。

4. 重復數據刪除和壓縮

駕馭大數據的一個關鍵部分是重復數據刪除和壓縮。Hedvig看到常見的大數據集可以縮減70%-90%。在PB級規(guī)模下,這意味著可節(jié)省數萬美元的磁盤成本。

拉克希曼說:“現代平臺提供了內聯(lián)式(而不是處理后)重復數據刪除和壓縮。這意味著,如果不先以某種方式來縮減數據,數據永遠不會進入到磁盤,這大大減少了存儲數據所需的容量。”

5. 整合Hadoop發(fā)行版

許多大組織都有多個Hadoop發(fā)行版。可能是由于開發(fā)人員需要訪問多個“版本”,或者業(yè)務部門久而久之采用了不同的版本。不管怎樣,IT總部常常最終負責這些集群的日常維護和操作。大數據數量真正開始影響業(yè)務時,存在多個Hadoop發(fā)行版會導致效率低下。

拉克希曼說:“你可以創(chuàng)建一個單一、經過重復數據刪除的壓縮數據湖,然后它可以為Hadoop的多個實例提供數據,從而獲得數據效率。”

6. 對Hadoop虛擬化處理

虛擬化技術在企業(yè)界刮起了一場風暴。在許多地方,如今超過80%的物理服務器已虛擬化。不過由于性能和數據局部性問題,許多人避免了對Hadoop進行虛擬化處理。

拉克希曼說:“你可以對Hadoop或Spark進行虛擬化處理。”

7. 構建彈性數據湖

構建數據湖并非易事,但大數據存儲的需求可能需要數據湖。有許多方法可以著手構建,可是哪一種才是合適的方法?合適的架構有望構建一個活躍、彈性的數據湖,可以存儲來自所有數據源、采用多種格式的數據,包括結構化數據、非結構化數據和半結構化數據。更重要的是,它必須支持就在數據源處執(zhí)行應用程序,而不是從遠程源處執(zhí)行,那樣需要移動數據。

遺憾的是,傳統(tǒng)的架構和應用程序(即非分布式)并不令人滿意。由于數據集變得更龐大,必須將應用程序移到數據,而不是將數據移到應用程序,因為那樣延遲太長。而有了Hadoop/Spark,分析工作流變得更具破壞性了,因為數據和應用程序從不同的孤島來執(zhí)行,迫使數據移動并存儲到多個平臺上。

日立公司大數據分析高級產品營銷經理弗雷德·歐(Fred Oh)說:“理想的數據湖基礎設施能夠存儲單一數據副本,并且讓應用程序針對單一數據源執(zhí)行,沒必要移動數據或制作副本(比如在Linux、虛擬機和Hadoop之間)。”

8. 集成分析

分析不是一種新的功能,多年來它就存在于傳統(tǒng)的RDBMS環(huán)境中。不同之處在于,出現了基于開源的應用程序,以及能夠將數據庫表與社交媒體和非結構化數據源(比如維基百科)集成起來。關鍵在于,能夠把多種類型和格式的數據集成為一種標準的數據,那樣就能更輕松、更一致地完成可視化和報告。擁有完成這項工作的合適工具集是確保任何分析/商業(yè)智能項目成功的關鍵。

歐說:“說到分析,重要的是要明白真正的挑戰(zhàn)不在可視化,而在數據集成,尤其是集成來自多個數據源、采用多種格式的數據。一套全面的數據集成工具和基于GUI的集成控制臺可以克服企業(yè)在大數據方面的挑戰(zhàn)。”

9. 大數據遇上大視頻

大數據夠糟糕,大視頻更是為這個現象添加了壓力。比如說,企業(yè)日益使用視頻監(jiān)控,不僅僅出于安全性,還為了提高運營和工業(yè)效率,簡化流量管理,支持監(jiān)管合規(guī)及另外幾種使用場合。很快,這些數據源會生成大量內容。那些要處理大視頻的企業(yè)最好確保為此建立了合適類別的數據存儲系統(tǒng),無論是不是基于Hadoop。

歐說:“這些應用程序正在帶來大量的視頻數據,要是沒有合適的專用存儲解決方案,這些數據會帶來諸多問題,比如數據丟失和視頻質量下降。”

10. 沒有贏家

最近Hadoop無疑攻下了許多地盤。所以,隨著數據存儲量急劇增長,它會是最終贏家,擊敗其他所有方法嗎?不太可能。

比如說,由于OLTP方面的固有優(yōu)點以及要求100%的可用性,基于SAN的傳統(tǒng)架構不會在近期被取代。但是如果需要分析以及與非結構化數據(比如社交媒體)集成,那么評估超融合平臺就有引人入勝的理由,因為超融合平臺將服務器計算、分布式文件系統(tǒng)、Hadoop/Spark和更新穎的數據庫應用軟件與基于開源的分析工具整合起來。

因此,最佳方法將超融合平臺與分布式文件系統(tǒng)整合起來,并集成了分析軟件。基于Linux的傳統(tǒng)RDBMS應用(DWO和數據市場等)可滿足這個用途,Hadoop/Spark/MapReduce則應對新的社交媒體挑戰(zhàn),使用服務器虛擬化提供了靈活性和效率。但是這每種環(huán)境都可能形成不同的數據孤島。理想的方法就是同時支持這三種環(huán)境,并增添這種功能:可在數據源處執(zhí)行應用程序,并減少分析工作流中的數據移動。

歐說:“成功的關鍵在于實施的系統(tǒng)考慮到了可擴展性、分析集成和專業(yè)知識。最終,存儲專業(yè)人員需要預料未來的要求,而不僅僅著眼于存儲。”

鏈接已復制,快去分享吧

企業(yè)網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 类乌齐县| 滦平县| 怀仁县| 奉新县| 冀州市| 赤壁市| 盘锦市| 鹤壁市| 白银市| 开阳县| 东乡县| 海宁市| 东海县| 沙河市| 西乡县| 南充市| 桦南县| 宜君县| 灌云县| 庆城县| 金山区| 广饶县| 江川县| 同心县| 昆山市| 海伦市| 来安县| 洞头县| 瓦房店市| 蒙阴县| 杭锦旗| 桑日县| 云阳县| 漠河县| 玉门市| 五河县| 偃师市| 柘城县| 鹤峰县| 昭平县| 通许县|