當前位置：存儲 → 技術專區 → 正文

選擇正確人工智能數據存儲的6個準則

責任編輯：cres 作者：Chris Evans |來源：企業網D1Net 2020-02-13 11:33:32 原創文章企業網D1Net

企業選擇錯誤的人工智能存儲平臺可能會產生嚴重影響。因此，人們需要了解可能影響企業選擇人工智能數據存儲策略的6個準則。

人工智能和機器學習如今已成為企業最重要的兩個工具，可幫助企業利用其核心數字資產創造競爭優勢。但是在采用人工智能數據存儲之前，企業必須根據機器學習平臺如何獲取、處理和保留數據來考慮一系列要求。

首先檢查一下機器學習軟件使用的數據的生命周期，因為這可以幫助企業了解為人工智能選擇存儲時應考慮的事項。最初，企業必須獲取數據以訓練機器學習或人工智能算法。這些是處理數據以學習任務的軟件工具，例如識別對象、處理視頻和跟蹤運動。數據可以從各種來源產生，并且通常在本質上是非結構化的，例如對象和文件。

訓練過程將獲取數據資產，并使用機器學習或人工智能軟件來創建用于處理未來數據源的算法。在訓練或開發算法時，人工智能軟件將處理源數據以開發模型，該模型可以創建洞察力或滿足業務需求。

開發機器學習算法很少是一個單一的過程。隨著企業積累越來越多的數據，其算法也會得到完善和改進。這意味著很少的數據會被丟棄，而是隨著時間的推移會增長并重新處理。

采用人工智能數據存儲的標準

在為人工智能平臺選擇存儲之前，企業必須首先考慮以下事項：

(1)費用。人工智能數據存儲的價格是企業考慮購買的關鍵因素。顯然，企業管理層和參與采購決策的人員都希望數據存儲盡可能具有成本效益，并且在許多情況下，這將影響企業的產品選擇和策略。

(2)可擴展性。企業需要收集、存儲和處理大量數據以創建機器學習或人工智能模型。機器學習算法要求源數據呈指數增長，以實現精度的線性提高。創建可靠而準確的機器學習模型可能需要數百TB甚至PB的數據，而且這會隨著時間的推移而增加。

構建PB級存儲系統通常意味著使用對象存儲或橫向擴展文件系統。現代對象存儲可以解決人工智能工作負載的容量需求，但是它們可能無法滿足其他條件，例如高性能。橫向擴展文件系統可以提供高性能和良好的可擴展性，但是將整個數據集存儲在單個平臺上可能會很昂貴。由于可擴展性要求和大容量產品的成本，塊存儲通常不是機器學習或人工智能的正確選擇。唯一的例外是在公共云中。

存儲成本的變化引入了分層或使用多種類型的存儲來存儲數據的想法。例如，對象存儲庫是存儲大量非活動人工智能數據的良好目標。當需要數據進行處理時，可以將其移動到高性能文件存儲集群或對象存儲中為高性能而設計的節點中，一旦完成處理，就可以將數據移回。

(3)性能。人工智能數據的存儲性能包括三個方面。首先，可能也是最重要的是延遲。這定義了軟件發出的每個I/O請求的處理速度。低延遲很重要，因為改善延遲會直接影響創建機器學習或人工智能模型所需的時間。復雜的模型開發可能需要數周或數月的時間才能運行。通過縮短開發周期，企業可以更快地創建和完善模型。在檢查延遲功能時，由于對象訪問的流動性質，對象將參考時間存儲到第一個字節，而不是單個I/O請求的延遲。

性能的另一個方面是吞吐量，以及可以將數據寫入存儲平臺或從存儲平臺讀取數據的速度。系統吞吐量很重要，因為人工智能培訓會處理大量數據集，通常會反復讀取和重新讀取相同的數據以準確地開發模型。機器學習和人工智能數據的來源(例如自動駕駛車輛上的傳感器)每天可以產生數TB的新數據。所有這些信息都必須添加到現有數據存儲中，并且對任何現有處理的影響最小。

正確設置存儲平臺至關重要，因為涉及的數據量非常大。

性能的最后方面是并行訪問。機器學習和人工智能算法并行處理數據，運行多個任務，這些任務可以多次讀取同一數據，并且可以跨越許多并行任務。對象存儲擅長并行讀取I/O處理，因為沒有對象鎖定或要管理的屬性。文件服務器跟蹤內存中打開的I/O請求或文件句柄。因此，活動I/O請求的數量取決于平臺上可用的內存。

機器學習數據可以包含大量的小文件。在這方面文件服務器可以提供比對象存儲更好的性能。向人工智能存儲供應商提出的一個關鍵問題是，其產品的性能特征將如何在大文件和小文件類型之間發生變化。

由于大多數大型對象存儲太大而無法定期備份，因此可靠的擦除編碼已成為人工智能存儲平臺的基本功能。

(5)公共云。開發機器學習和人工智能算法需要高性能的存儲和高性能的計算。許多人工智能系統都基于GPU(例如Nvidia DGX)，可以減輕開發精確算法所涉及的許多復雜數學計算的負擔。

公共云服務提供商已開始提供可用于機器學習的GPU加速虛擬實例。在公共云中運行機器學習工具可降低構建用于機器學習開發的基礎設施的投資成本，同時提供擴展開發機器學習模型所需的基礎設施的能力。

使用公共云計算所面臨的挑戰是如何以經濟高效且實用的方式將數據導入公共云。基于云計算的對象存儲速度太慢，無法滿足機器學習的I/O需求;因此，必須使用本地塊存儲。移動數據的延遲和機器學習的延遲意味著運行基礎設施的成本增加。

公共云的另一個問題是數據出口的成本。盡管云計算服務提供商不收取將數據移入其平臺的費用，但他們對從其平臺外部的公共網絡訪問的任何數據收取費用。其結果是，盡管公共云提供了計算的靈活性，但以及時且經濟高效的方式將數據進出云平臺并不總是那么容易。

云計算供應商正在開發可在公共云中運行其產品的存儲產品，這些存儲跨越內部部署基礎設施和云平臺。這些產品可以有效地復制數據或將數據移至云平臺中，并且僅在完成后才將結果移回。這些復制技術具有高帶寬效率，使在內部部署存儲數據并導入到云平臺中進行分析工作變得切實可行。

(6)整合。在機器學習和人工智能的存儲方面需要與計算隔離開來。構建人工智能數據存儲可能很困難，因為存儲網絡和調整存儲必須考慮其他因素才能與機器學習應用程序一起工作。

產品的預包裝使云計算供應商能夠在將產品交付給客戶之前對其產品進行測試和優化。如今，有一些存儲產品將流行的人工智能軟件、CPU和GPU等計算、網絡和存儲設備結合在一起，以提供支持人工智能的平臺。在部署這些系統之前，許多詳細的調整工作已完成。盡管成本可能是一個問題，但對于許多客戶而言，預包裝的系統可以減少采用人工智能存儲的障礙。

顯然，選擇合適的人工智能數據存儲平臺是權衡指標，例如性能、可擴展性和成本。正確設置存儲平臺至關重要，因為涉及的數據量非常大。選擇錯誤的產品可能是一個代價高昂的錯誤。與任何存儲產品決策一樣，企業與云計算供應商交談以準確了解其產品如何滿足人工智能和機器學習的需求也很重要。其參與過程應包括演示和評估，以作為任何可能的購買決定的前奏。

關鍵字：存儲