機器學習似乎已成為每個人都追求的一個宏大目標,超過80%的公司都正在研究至少一個AI項目。
在開始之前,最好先詢問自己以下三個問題:
· “此機器學習模型的準確性如何?”
· “培訓時間多長?”
· “需要多少培訓數據?”
用戶通常想知道新模型的裝載需要多長時間,以及它的性能或推廣效果如何,他們想要一種根據性能衡量總體成本的方法。但遺憾的是,以上問題的答案并不能解決這個問題。
它們甚至具有誤導性。
模型訓練只是冰山一角。獲取合適的數據集以及清理、存儲、聚合、標記、建立可靠的數據流和基礎架構管道需要巨大成本,但大多數用戶和AI / ML公司都忽略了這一點。
根據最近的研究,公司在AI / ML項目中將80%以上的時間用于數據準備和工程業務。換句話說,如果將大部分精力放在構建和訓練模型上,則總的工程工作量和成本可能是預計的五倍。
此外,機器學習模糊了用戶和軟件開發商之間的界線。
AIaaS或MLaaS已經開始出現。隨著數據的增長,云端模型不斷改進。也正因如此,MLaaS的業務比SaaS更具挑戰性。
機器模型從訓練數據中學習,因此缺乏高質量的數據,模型將無法良好運行。在大多數情況下,用戶并不了解生成或注釋適當數據集的最佳做法。
當系統性能不佳時,用戶往往會歸咎于模型。因此,AI / ML公司通常花費大量時間和資源進行培訓并與用戶合作,以確保數據質量,這成為AI公司與其客戶之間的共同責任。
例如,要訓練生產線上的缺陷檢查模型,計算機視覺公司需要與客戶合作,以正確的角度和位置安裝攝像頭,檢查分辨率和幀頻,確保每個場景都有足夠的正負面訓練樣本。
某些時候機器人或車輛需要人為操作,因此使用機器人技術或自動駕駛汽車應用程序進行數據收集更加耗時且成本更高。
即使進行了培訓課程,且看完了所有用戶手冊和指南,你仍然不能完全控制用戶生成的數據。一家機器視覺相機公司告訴我,他們的工程師會手動驗證所有數據以確保其完整輸入。
所有這些經常被忽視的額外培訓、手動檢查、數據清理和標記任務會給AI公司帶來巨大的間接費用。這就是為什么要建立更具可擴展性的AI/ML項目的原因。那么該如何解決這個問題呢?
1. 可擴展性是關鍵。
確定大量客戶愿意購買的正確用例,并使用相同的模型體系結構解決。最后,你需要在沒有標準產品的情況下為不同的公司構建和訓練不同的模型。
2. 盡量提供自助服務。
盡可能使培訓和數據管道自動化,以提高運營效率并減少對體力勞動的依賴。相比較內部工具或自動化,公司更看重開放客戶可見的功能,但是前者很快就會收到回報,你需要確保為內部流程自動化分配足夠的資源。
3. 最后,確定并跟蹤成本,尤其是隱性成本。
工程師花費了多少時間清理、過濾或聚合數據?他們花費多少時間來確保第三方正確完成注釋?他們需要多久幫助客戶設置環境并正確收集數據?其中有多少可以自動化或外包?
練級之路可能艱難而漫長,但有些問題是遲早都需要面對的。