對象存儲適合人工智能和機器學習的三個原因

責任編輯：cres 作者：Gary Ogasawara |來源：企業(yè)網D1Net 2020-06-02 11:00:04 原創(chuàng)文章企業(yè)網D1Net

如今，各種類型的企業(yè)都致力于采用人工智能和機器學習項目，但要發(fā)揮其真正的潛力，則需要克服重大的技術障礙。雖然計算基礎設施通常是重點，但存儲設施也同樣重要。以下是對象存儲(而不是文件或塊存儲)適用在加強人工智能和機器學習工作負載的三個主要原因：

1.可擴展性

當有大量不同的數據源可供學習時，采用人工智能和機器學習技術最有效。數據科學家利用這些豐富的數據來訓練領域模型。在“大數據的五個V”(數量、類型、速度、準確性和價值)中，前兩個(數量和類型)最為重要。簡而言之，人工智能和機器學習依賴于大量不同的數據(圖像、文本、結構化和半結構化數據)來構建有用的模型，提供準確的結果，并最終提供業(yè)務價值。

對象存儲是最具擴展性的存儲架構，特別適合支持人工智能和機器學習所需的大量數據。對象存儲旨在通過水平擴展方法實現無限增長，從而使企業(yè)可以通過在需要的位置和時間添加節(jié)點來增加部署。由于對象存儲使用單個全局名稱空間，因此也可以一次在多個地理位置上進行這種擴展。另一方面，文件和塊系統(tǒng)通常采用擴展方法。這意味著這些平臺通過向單個節(jié)點添加更多計算資源來實現垂直擴展，這最終會受到限制。他們無法通過部署其他節(jié)點來增加計算資源，從而無法有效地水平擴展。

2. API

健壯靈活的數據API對于人工智能和機器學習非常重要，如上所述，它們使用了多種數據類型。存儲平臺需要支持API來容納各種數據。此外，人工智能和機器學習的創(chuàng)新越來越多地在公共云上進行，但是仍然有相當一部分人工智能和機器學習在內部部署數據中心或私有云中發(fā)生，這取決于用例的具體情況(例如，科學研究和醫(yī)療保健等領域通常最適合私有云)。這意味著組織需要一個存儲API，以支持公共云和本地/私有云中的工作負載。

文件和塊存儲平臺所支持的API受限制，部分原因是它們是較舊的架構。相比之下，對象存儲使用云平臺中固有的高級API，該API設計為以應用程序為中心，與文件和塊存儲相比，它支持范圍更廣的API，其中包括版本控制、生命周期管理、加密、對象鎖定和元數據。此外，支持人工智能和機器學習用例的新對象存儲API(例如對流數據的支持和對海量數據集的查詢的支持)也是可能的。

通過圍繞Amazon S3的對象存儲API的標準化，可以更輕松地在內部部署和公共云中集成軟件。企業(yè)可以輕松地將人工智能和機器學習部署從內部部署/私有云環(huán)境擴展到公共云，或者將云原生的人工智能和機器學習工作負載遷移到內部部署環(huán)境，而不會損失功能。這種雙模式方法使組織可以合作且可互換地利用內部部署/私有云和公共云資源。

由于S3 API已成為對象存儲的事實上的標準，因此許多軟件工具和庫都可以利用該API。這允許共享代碼、軟件和工具，以促進人工智能和機器學習社區(qū)中更快的開發(fā)。示例包括流行的機器學習平臺，例如具有內置S3 API的TensorFlow和Apache Spark。

3.元數據

與API一樣，使用人工智能和機器學習的組織必須利用無限的可自定義的元數據，這一點至關重要。元數據只是關于數據的數據，在最基本的層面上，是在何時何地創(chuàng)建的數據，以及是誰創(chuàng)建的數據。但是元數據可以描述更多內容：用戶可以創(chuàng)建任意的元數據標記來描述他們想要的任何屬性。

數據科學家需要豐富的元數據來查找特定數據以構建和使用其人工智能和機器學習模型。隨著更多信息添加到數據中，元數據注釋可逐步積累知識。

文件和塊存儲僅支持有限的元數據，例如上述基本屬性。這在很大程度上可以歸結為可擴展性，因為文件和塊系統(tǒng)未配備快速無縫的增長功能，如果存儲系統(tǒng)支持依賴大量數據集的人工智能和機器學習應用程序的豐富元數據，則自然會發(fā)生這種情況。但是，對象存儲支持無限的、完全可自定義的元數據，從而使查找用于人工智能和機器學習算法的數據更加容易，并從中獲得更好的見解。

以一家醫(yī)院在X光圖像上使用圖像識別應用程序為例：使用元數據，可以使用TensorFlow模型分析添加到對象存儲系統(tǒng)中的每個圖像，然后為每個圖像分配更加精細的元數據標簽(例如，損傷類型、基于骨骼大小或生長的患者年齡或性別等)。TensorFlow模型可以在元數據上進行訓練，并對其進行分析，得出新的患者見解(例如與五年前相比，如今20歲到30歲的婦女患上的骨科疾病更多)。

幾乎每一家財富500強公司都在考慮采用人工智能和機器學習，可以想象這些技術將在可預見的將來成為最重要的企業(yè)IT計劃。然而，要使人工智能和機器學習計劃獲得回報，企業(yè)必須利用正確的存儲基礎設施。對象存儲由于其可擴展性、對各種API(特別是S3)的支持以及豐富的元數據，是人工智能和機器學習的最佳支柱。

關鍵字：存儲