摘要:市面上有大量的大數據存儲產品。
市面上有大量的大數據存儲產品。哪些產品是最好的?很顯然,沒有一個簡單的答案。選擇大數據存儲工具牽涉許多變化因素,包括現有環境、目前的存儲平臺、數據增長預期、文件的大小及類型、數據庫和應用程序程序組合等。
雖然本文根本不是什么完整的清單,但還是列出了值得你考慮的幾種頂尖的大數據存儲工具。
大數據存儲領域的主要競爭者
日立
日立提供了幾款大數據存儲產品。與Pentaho軟件公司合作開發的大數據分析工具、日立超級橫向擴展平臺(HSP)、HSP技術架構以及日立視頻管理平臺(VMP)。后一個例子專門針對大視頻這個方興未艾的大數據子集,面向視頻監控及其他視頻密集型存儲應用領域。
DDN
類似地,DataDirect Networks(DDN)也有一批面向大數據存儲的解決方案。
比如說,其高性能SFA7700X文件存儲可以自動分層到WOS對象存儲歸檔系統,支持快速收集、同時分析和經濟高效地保留大數據。
DDN的營銷戰略和運營高級主管邁克爾·金(Michael King)說:“斯克里普斯研究所使用該產品用于冷凍電子顯微鏡(Cryo-EM),每周收集30 多TB的數據,尋找艾滋病毒、埃博拉、寨卡及主要神經疾病的治療方法。而在過去,查看蛋白質結構和產生的抗體至少需要一年的時間。Cyro-EM在幾周內就完成了發現過程。”
Spectra BlackPearl
Spectra Logic的BlackPearl深度存儲網關為基于SAS的磁盤、SMR降速磁盤或磁帶提供了對象存儲接口,所有這些技術都可以放在存儲環境中BlackPearl的后面。
Kaminario K2
Kamiario提供了另一種大數據存儲平臺。雖然它并不提供經典的大數據設備,但其全閃存陣列正在許多大數據應用領域找到一席之地。
Kaminario的首席技術官沙恰·菲恩布利特(Shachar Fienblit)說:“由于開發人員把實時分析融入到應用中,存儲基礎設施策略必須能夠管理大數據分析工作負載以及傳統的事務處理工作負載。Kaminario K2全閃存陣列就是為了支持這種動態工作負載環境而開發的。”
Caringo
Caringo成立于2005年,旨在發掘數據的價值,并解決大規模保護、管理、組織和搜索數據方面的問題。有了旗艦產品Swarm,用戶無需將數據遷移到不同的解決方案,即可實現長期保存、交付和分析,因而降低總體擁有成本。它已經被全球400多家組織所使用,比如美國國防部、巴西聯邦法院系統、奧斯汀市、西班牙電信、英國電信、Ask.com和約翰斯霍普金斯大學。
Caringo的產品副總裁托尼·巴巴加洛(Tony Barbagallo)說:“為了簡化獲取數據、饋送給Swarm,我們有FileFly(用于Windows文件服務器及NetApp服務器)和SwarmNFS(提供功能齊全的NFSv4基礎設施)。”
Infogix
Infogix企業數據分析平臺基于五項核心功能:數據質量、事務監控、均衡及協調、身份匹配、行為分析以及預測模型。這些功能據說可幫助公司提高運營效率、帶來新的收入、確保合規,并獲得競爭優勢。該平臺可以實時檢測出現的數據錯誤,并自動實行全面分析,以優化大數據項目的表現。
Avere混合云
Avere提供了另一種大數據存儲方案。其Avere混合云部署在混合云基礎設施中的各種用例。物理FXT集群用于NAS優化這種用例,充分利用基于磁盤的現有NAS系統前面的全閃存高性能層。FXT集群使用緩存,以便自動加快活躍數據,使用集群擴展性能(添加更多的處理器和內存)及容量(添加更多的固態硬盤),并將有時部署在廣域網上的核心存儲的延遲隱藏起來。用戶發覺它是加速渲染、基因組分析、金融模擬、軟件工具和二進制代碼庫等性能的好方法。
在面向私有對象的文件存儲這種用例下,用戶希望從NAS遷移到私有對象存儲。他們往往喜歡私有對象的效率、簡單性和彈性,但不喜歡其性能或基于對象的API接口。在這種用例下,FXT集群提升了私有對象存儲的性能,其實現方式與NAS優化這種用例一樣。
Avere Systems的產品管理和市場營銷高級主管杰夫·泰伯(Jeff Tabor)說:“此外,FXT集群提供了熟悉的NAS協議,可轉換成存儲端的對象API,那樣用戶不用改寫應用程序,或不用改變數據訪問方法,就可以使用對象存儲。”
最后,云存儲網絡這種用例類似面向私有對象的文件存儲這種用例,增添的一個好處是,企業可以開始構建更少的數據中心,將數據遷移到云端。延遲是這種用例要克服的挑戰之一,這正是物理FXT集群所要解決的。訪問時,數據在FXT集群上本地緩存,那樣之后進行的所有訪問都具有低延遲的優點。FXT集群可能擁有多達480TB的總緩存容量,因而大量數據可以在本地存儲起來,避免云的延遲。
DriveScale
大數據通常存儲在本地磁盤上,這意味著為了在大數據集群的規模不斷擴大時,能實現效率和擴展性,就需要保持計算和存儲之間的邏輯關系。于是出現了一個問題是:如何將磁盤從服務器分離開來,又繼續在處理器/內存組合和驅動器之間提供同樣的邏輯關系?如何實現共享存儲池的成本、規模和可管理性等方面的效率,同時仍提供局部性的好處?據說DriveScale通過利用Hadoop數據存儲,就可以做到這點。
然而,希望為大數據應用安裝和管理資源的存儲專業人員主要受制于Hadoop架構,這種架構本身是針對服務器上的本地驅動器來優化的。隨著數據量不斷增加,唯一的辦法就是購買數量越來越多的服務器,不僅要滿足計算需求,還要提供更大的存儲容量。DriveScale讓用戶得以在獨立于計算容量的情況下單獨購置存儲容量,從而在每個層面做到容量正好。
DriveScale的產品管理副總裁S.K. Vinod說:“沒有理由無法將大家在數據中心習慣獲得的專有縱向擴展基礎設施環境具有的優點引入到商用橫向擴展環境。我們為IT管理員提供了構建和運行彈性大數據基礎設施的工具,在這種基礎設施環境下,服務器和磁盤子系統可以根據需要,實時分解和重組。單個驅動器從JBOD連接磁盤組成的共享池配置給服務器,因而消除了成本不相稱。”
Hedvig
Hedvig分布式存儲平臺提供了一種統一解決方案,讓你可以定制結合低成本商用硬件和高性能存儲,以支持任何應用程序、虛擬機管理程序、容器或云。據說它可以針對數據塊、文件和對象存儲,為任何規模的任何計算提供存儲,具有可編程性,而且支持任何操作系統、虛擬機管理程序或容器。此外,混合多站點復制使用獨特的災難恢復策略來保護每個應用程序,并通過跨多個數據中心或云的存儲集群提供高可用性。最后,高級數據服務讓用戶可以借助可按照卷來選擇的一系列企業服務,定制存儲。
Hedvig公司首席執行官兼創始人阿維納什·拉克希曼(Avinash Lakshman)說:“對于Hadoop來說,如果你想要一些功能由HDFS來處理,其他功能由存儲平臺來處理,這至關重要。”
Nimble
Nimble存儲預測閃存平臺據說可顯著提高分析應用和大數據工作負載的性能。它通過結合閃存性能和預測分析,防止IT復雜性導致的數據速度面臨的障礙來做到這一點。