一家公司的云平臺在一個周末發生故障,該公司云計算運營團隊試圖研究和探討發生了什么問題。似乎有幾個系統與一個先進的新的庫存管理系統相關,這個系統啟用了機器學習,但出現了問題。對其進行檢測之后的結論如下:
•將原始數據從運營數據庫移動到訓練數據庫的批處理以及自動恢復過程失敗。而在周末工作的運維團隊成員試圖重新提交,但并不是一次性全部提交,而是進行了四次更新,導致訓練數據庫處于不穩定狀態。
•這導致機器學習系統中的知識模型使用錯誤的數據進行訓練,并要求刪除知識庫中的新信息,并重建模型。
•此外,一些外部數據饋送(例如定價和稅務數據)同時更新到訓練數據庫。盡管這些工作正常,但考慮到運營數據不是很好,也需要退出知識庫。
•該系統兩天內無法使用,考慮到生產力下降、客戶不滿以及公關問題,使該公司損失了400萬美元。
隨著企業越來越多地使用“物美價廉”的基于云計算的機器學習系統,人們發現利用機器學習的系統操作起來非常復雜。企業運營小組希望降低困難程度和復雜性,但發現面臨訓練不足、人手不足和資金不足的問題。
云計算運營團隊可以通過相當容易的轉換來處理基于云計算的數據庫、存儲、計算。考慮到基于云計算的系統與傳統系統類似,大多數情況都是如此。
但是,運營團隊在很大程度上還沒有采用基于機器學習的系統。這些系統具有專門的用途,以及必須以某種方式監視和管理的專用系統,如數據庫和知識引擎。這是當前運營團隊失敗的地方。
這種情況很容易理解,但大多數企業都不會喜歡,因為它意味著花費更多資金用于機器學習的云計算運營,可能導致放棄。機器學習系統是一種技術鏈,如果小心使用,它們非常有效。如果處理不當,可能無法檢測到故障,將會很危險。如果系統使用由此產生的錯誤知識,那么最終可能會出現嚴重的問題,而在造成很大的損害之前,這些問題可能無法被發現。似乎其風險大于回報。