當企業最初開始部署 AI 和啟動機器學習項目時,其重點往往是理論層面。是否存在某一可以提供必要結果的模型?如何構建該模型?如何訓練這一模型?
但數據科學家用來開發這些概念驗證的工具通常不能很好地轉化為生產系統。因此,根據IDC公司的數據,部署一個 AI 或機器學習解決方案平均需要 9 個多月的時間。
IDC司分析師史利南·蘇布蘭馬尼安 (Sriram Subramanian) 說:“我們稱之為‘模型速度’,即一個模型從開始到結束所需的時間。”
這就是 MLOps 可發揮作用之處。MLOps(機器學習運營)是一系列最佳實踐、框架和工具,可幫助企業管理數據、模型、部署、監控工作以及采用某一理論概念驗證 AI 系統并投入使用的其他方面工作。
“MLOps 可將模型速度縮短到幾周時間——有時是幾天,”蘇布蘭馬尼安說。 “就像使用開發運營 (DevOps) 可縮短開發應用程序的平均時間一樣,因此你需要使用 MLOps。”
他表示,通過使用 MLOps,企業可以構建更多的模型、更快地進行創新,并處理更多的用例。“其價值主張非常明確。”他說。
IDC公司預測,到 2024 年,60% 的企業將使用 MLOps 來實現其機器學習工作流。蘇布蘭馬尼安表示,就企業在使用 AI 和機器學習技術時所面臨的難題,而對其進行調查時,缺乏 MLOps 已成為企業接納 AI 和機器學習技術的主要障礙,僅次于成本。
在此,我們將研究什么是 MLOPs,它是如何演變的,以及哪些組織機構需要使用和牢記,以為實施 AI 技術而充分利用這一新興方法。
MLOps 的演變
幾年前,當歐亨尼奧·祖卡雷利 (Eugenio Zuccarelli) 首次開始設計機器學習項目時,MLOps 只是一系列最佳實踐。從那時起,祖卡雷利已在多家公司從事 AI 項目,包括醫療和金融服務領域的一些公司,隨著時間的推移,他經歷了 MLOps 逐步發展,并包含了多種工具和平臺。
如今,MLOps 可為實現AI 技術提供一個相當強大的框架,祖卡雷利表示,他現在擔任西維斯健康公司 (CVS Health) 的創新數據科學家。舉例來說,祖卡雷利提到了他之前從事的一個項目,該項目是為開發一款可預測不良后果(例如再次住院或疾病惡化)的應用程序。
“我們當時在研究數據集和模型,并與醫生交談以找出最佳模型的特征,”他說。“但要使這些模型真正有用,我們需要將這些模型放到實際用戶面前。”
這意味著要開發一款可靠、快速和穩定的移動應用程序,并在后端有一個通過 API 連接的機器學習系統。“如果沒有 MLOps,我們將無法保證做到這一點。”他說。
他的團隊使用 H2O MLOps 平臺和其他工具為該模型創建了一個健康儀表板。“你不希望該模型發生重大變化,”他說。“而且你不想引入偏見。該健康儀表板可讓我們了解系統是否發生了變化。”
使用 MLOps 平臺還可以讓我們對生產系統進行更新。“在不停止該應用程序運行的情況下替換某一文件是非常困難的,”祖卡雷利說。“即使系統正在生產過程中,MLOps 工具也可以對該系統進行更換,而且對該系統本身的干擾極小。”
他表示,隨著 MLOps 平臺的成熟,這些平臺會加快整個模型開發的過程,因為企業不必為每個項目都白費力氣做一些重復性工作。數據管道管理功能對于實施 AI 也至關重要。
“如果我們有多個需要相互通信的數據源,那么 MLOps 就可以發揮作用,”他說。“你希望流入機器學習模型的所有數據都是一致且高質量的。就像他們說的那樣,無用數據輸入,無用數據輸出。如果模型所獲取的信息質量很差,那么其預測結果本身就會很差。”
MLOps 的基本原理:移動目標
但不要僅僅因為現在可使用一些平臺和工具,就認為可以忽略 MLOps 的核心原則。剛開始涉足這一領域的企業應該記住,MLOps 的核心是在數據科學和數據工程之間建立強有力的聯系。
“為了確保 MLOps 項目能夠成功,你需要在同一團隊中同時配備數據工程師和數據科學家。”祖卡雷利說。
此外,還要配備一些必要的工具以防止產生偏見、保證透明度、提供可解釋性和支持職業道德平臺——這些工具仍在開發中,他表示。“這肯定還需要大量的工作,因為這是一個很新的領域。”
因此,如果沒有一個完整的交鑰匙解決方案可供使用,則企業必須精通所有方面,才能在實施 AI 技術時使 MLOps 變得如此高效。這意味著在各項工作中學習專業知識,位于美國坦佩的 Insight 技術咨詢公司的 AI 團隊的國內業務經理梅根·金特里 (Meagan Gentry) 說。
MLOps 涵蓋了從數據收集、驗證和分析到管理機器資源和跟蹤模型性能的所有方面。可為企業提供幫助的一些工具可以部署在本地、云端或邊緣。這些工具可以是開源的或私有的。
但掌握技術方面的知識只是解決問題的一部分。MLOps 還借鑒了開發運營 (DevOps) 中的敏捷方法以及迭代開發原則,金特里說。此外,與敏捷開發相關的領域一樣,溝通是至關重要的。
“每個角色之間的溝通都至關重要,”她說。“數據科學家和數據工程師之間的溝通。與開發運營人員的溝通,以及與更大的 IT 團隊之間的溝通。”
對于剛起步的公司而言,MLOps 可能會讓你感到困惑。可以看到一些一般性原則,有數十家供應商,甚至有更多的開源工具箱。
“這就會存在一些陷阱,”凱捷美洲公司 (Capgemini Americas) 企業架構高級經理海倫•里斯托夫 (Helen Ristov) 說。“其中很多陷阱都在開發過程中。沒有一套正式的指南,就像你在開發運營 (DevOps) 中看到的那樣。這是一項新興技術,一些指南和策略需要一定時間才能發展出來。”
里斯托夫建議企業從他們的數據平臺開啟自己的 MLOps 行程。“也許他們擁有多個數據集,但這些數據集位于不同的地方,并且沒有一個很緊密相連的環境。”她說。
她表示,企業無需將所有數據轉移到一個平臺上,但確實需要一種方法將來自不同數據源的數據引入,這可能會因應用情況不同而存在差異。例如,對于那些需要低成本存儲且頻繁進行大量分析的公司,則非常適合使用數據湖。
她表示,MLOps 平臺通常會提供一些工具來構建和管理數據管道,同時記錄不同版本的訓練數據,但這并不是一勞永逸的。
然后還提供模型創建、版本管理、日志記錄、衡量特征集,以及管理模型本身的其他方面。
“這涉及到大量的編碼工作,”里斯托夫說,并補充道,建立一個 MLOps 平臺可能需要幾個月的時間,而且當涉及到集成方面的工作時,平臺供應商仍有很多工作要做。
“在不同方向有很大的發展,”她說。“有很多工具正在開發中,這一生態系統非常大,人們只是在選擇他們需要的東西。MLOps 正處于不成熟階段。大多數組織機構仍在尋找最佳配置。”
了解 MLOps 的格局
IDC公司的蘇布蘭馬尼安表示,到 2025 年,MLOps 市場規模預計將從 2020 年的約 1.85 億美元增長到約 7 億美元。但他表示,這可能是一種嚴重的低估,因為 MLOps 產品通常與更大的平臺捆綁在一起。他表示,到 2025 年,這一市場的真實規模可能超過 20 億美元。
蘇布蘭馬尼安表示,MLOps 供應商通常分為三類,首先是大型云提供商,包括 亞馬遜網絡服務 (AWS)、Azure 云和谷歌云,這些云平臺將 MLOps 功能作為一項服務來提供。
然后是一些機器學習平臺供應商,如 DataRobot、Dataiku、Iguazio 等。
“第三類是他們過去所說的數據管理供應商,”他說。“如 Cloudera、SAS 和 DataBricks 等公司。他們的優勢在于數據管理能力和數據操作,然后他們擴展到具備機器學習能力,并最終擴展到具備 MLOps 能力。”
蘇布蘭馬尼安表示,這三個領域都在呈現爆炸式增長,并補充道,讓 MLOps 供應商脫穎而出的關鍵在于他們是否能夠同時支持在本地和云端部署模型、他們是否能夠實施可信賴和負責任的 AI、他們是否能提供即插即用的方案,以及他們的方案是否可以輕松進行擴展。“這就是不同供應商之間的差異所在。”他說。
根據IDC公司最近的一項調查,缺乏實施負責任 AI 的方法是使用 AI 和機器學習技術的三大障礙之一,與缺乏 MLOps 本身并列第二位。
Gartner咨詢公司AI 和機器學習技術研究分析師蘇米特•阿加瓦爾 (Sumit Agarwal) 表示,這在很大程度上是因為除了使用 MLOps 之外,沒有其他選擇。
“其他方法都是手動方式,”他說。“所以,的確沒有其他選擇。如果你想擴大規模,你就需要自動化。你需要自己的代碼、數據和模型具有可追溯性。”
根據Gartner咨詢公司最近的一項調查,一個模型從概念驗證到投入使用所需的平均時間已從 9 個月降至 7.3 個月。“但 7.3 個月仍是一個很長的周期,”阿加瓦爾說。“組織機構有很多機會可以利用 MLOps。”
將組織文化轉向 MLOps
簡柏特公司 (Genpact) 全球分析業務負責人阿馬雷什•特里帕蒂 (Amaresh Tripathy) 表示,MLOps 還要求企業的 AI 團隊進行組織文化方面的轉變。
“數據科學家給人們的一個普遍形象是一個瘋狂的科學家,努力在做一個大海撈針的事情,”他說。“數據科學家是一個發現者和探索者,而不是一個生產小部件的工廠車間。但這就是你真正要擴大規模時所需要做的事情。”
他表示,企業往往會低估自己所需要付出的努力。
“人們對軟件工程有更好的認識,”他說。“關于用戶體驗和要求有很多規則。但不知何故,人們并不認為當自己部署一個模型時,必須經歷同樣的過程。人們還有一種錯誤的觀念是,所有擅長在測試環境中工作的數據科學家都會很自然地去部署并能夠部署某一模型,或者他們可以派幾個 IT 同事就能夠完成這一工作。人們對自己所需要做的工作缺乏理解。”
企業還沒有認識到,MLOps 可能會對公司的其他部門產生連鎖反應,而且通常會導致發生巨大的變化。
“你可以將 MLOps 部署在客服中心,但平均響應時間實際上會增加,這是因為一些簡單的工作由機器、AI 負責處理,而交給人工處理的工作實際上需要更長的時間,因為這些工作更為復雜。”他說。“因此,你需要重新考慮將要做的工作是什么,你需要什么樣的人,以及應該具備什么樣的技能。”
他表示,如今,一個組織中只有不到 5% 的決策是由算法驅動的,但這種情況正在迅速改變。“我們預計,在未來五年內,將有 20% 到 25% 的決策由算法驅動。我們研究的每一個統計數據都表明,我們正處于 AI 快速擴張的拐點。”
他表示,MLOps 是一個關鍵要素。
“百分之一百,”他說。“如果沒有 MLOps,你將無法持續地使用 AI。MLOps 是企業中擴大使用 AI 的催化劑。”
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。