大多數傳統的網絡附加存儲(NAS)系統都難以管理100 TB的非結構化數據集,而管理多PB數據超出了他們的能力范圍。當前網絡附加存儲(NAS)系統的局限性導致許多IT專業人員認為唯一的答案將是對象存儲系統。問題在于,盡管對象存儲可以擴展以滿足容量需求,但在性能方面可能不足。
IT專業人員在試圖找到支持PB級非結構化數據集的存儲基礎設施時面臨的挑戰之一是,必須將需求作為一個整體來考慮,因為所有元素都需要協同工作。
采用全閃存存儲不切實際
不可否認的是,在過去的五到六年中,閃存的成本已大幅下降,但是機械硬盤存儲成本仍然很低。同時,對非結構化數據的性能要求僅在過去幾年中有所提高。現代的非結構化數據存儲系統需要非常快速地處理元數據和實際數據。盡管一些全閃存供應商聲稱對性能的需求勝于對容量的需求,但在PB級的環境中,采用PB級或更多的閃存介質是不切實際的。
現代的非結構化數據存儲系統需要智能地使用閃存和機械硬盤進行存儲,并根據需要在兩個存儲層之間自動移動數據。這些系統可以從較低的閃存成本中受益,以增加閃存容量并減少緩存丟失的影響。但他們也需要利用機械硬盤存儲來控制成本。現代的非結構化數據存儲系統還需要利用云存儲來實現長期存檔和工作負載的可遷移性。
元數據必須擴展
另一個要求是,元數據必須擴展以跟上非結構化數據集的增長。管理元數據尤其重要,因為許多非結構化數據工作負載現在正在處理數百萬甚至數十億個文件。當然,每個文件都生成元數據。大多數文件系統供應商報告說,所有輸入輸出(IO)中多達80%是元數據。在許多情況下,由于元數據瓶頸、原有的網絡附加存儲(NAS)和文件系統達到了擴展限制。即使從技術上講,當前的系統可以提供更多的容量,但客戶仍然不得不購買另一個存儲系統。
文件系統還應該利用閃存來應對PB級非結構化數據集造成的元數據挑戰。寫入或修改數據時,文件系統應提取有關文件的元數據,并將其存儲在閃存的單獨區域中。將元數據存儲在閃存中不僅可以快速訪問元數據請求(同樣,所有IO中的80%是元數據),還可以隔離這個IO,從而使實際數據的路徑不再那么繁忙。
容量必須擴展
為了應對PB級元數據挑戰,使網絡附加存儲(NAS)或文件系統能夠提供比上一代存儲解決方案更大的容量,這意味著文件系統需要擴展。它通過集群稱為節點的商品服務器來完成擴展。每個節點都具有閃存和硬盤的內部存儲容量,并將該存儲分配到全局存儲池中。當組織需要更多容量時,IT部門會添加另一個節點,以向全局池存儲提供其容量。
洞察力就是力量
另一個必備條件是數據洞察力。給定文件數量及其消耗的容量,IT團隊需要盡可能多地了解數據集。問題在于大多數文件系統在添加事實之后會添加自己的見解,因此它們必須逐個文件人工掃描其文件系統以訪問這些見解。這些掃描要花費大量時間,尤其是在文件系統中,文件系統的數量高達數百萬個(有時甚至數十億個)。
IT部門需要實時可行的數據來監視系統性能和容量利用率。這些團隊需要立即識別出一個失控的過程是否正在消耗所有文件系統的可用IO。實時分析要求從一開始就將這種功能構建到文件系統中,而不是在以后添加它。如果文件系統將元數據從實際數據中分離出來,并將其存儲在閃存介質中,則文件系統的分析功能可以立即獲取該數據,并為組織提供實時答案。
PB級的非結構化數據環境與以TB為單位的環境有所不同。與傳統的非結構化數據工作負載相比,其用例傾向于創建和需要訪問更多的文件。存儲容量經常超過1PB,許多組織的存儲容量都在幾十PB的范圍內。考慮到人工智能和機器學習的興起,以及數字媒體的新需求,對文件系統的需求將會增加。
現代的非結構化數據存儲解決方案需要全面應對這些挑戰。由于多種原因,很多組織需要采用閃存,而又不能放棄機械硬盤節省成本的潛力。同時,這些系統需要提供對數據的洞察力,以便IT部門可以有效地對其進行管理。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。