正確規劃和采用機器學習技術可以幫助企業在業務成長、市場競爭以及未來發展方面做好準備。
如今,很多企業需要快速處理大量數據。與此同時,市場競爭格局正在迅速發展變化,因此企業能夠快速做出決定至關重要。
就像商業管理暢銷書《快魚吃慢魚》的作者Jason Jennings和Laurence Haughton所說的那樣:“如今的市場競爭不是大魚吃小魚,而是快魚吃慢魚。”
企業的業務成功在于采用更好的信息快速做出決策,機器學習在其中起著重要作用。無論企業是試圖向客戶提出建議改進其制造流程,還是預測市場變化,機器學習都可以通過處理大量數據來提供幫助,從而在企業尋求競爭優勢時更好地為其提供支持。
然而,盡管機器學習提供了巨大的機會,但仍然存在一些挑戰。機器學習系統依賴大量數據以及執行復雜計算的能力,由于客戶期望值發生變化或意外的市場波動等外部因素,這意味著企業需要監控和維護機器學習模型。
此外,在機器學習中還有一些實際問題需要解決。以下將探討和研究五個關鍵的實際問題及其對業務的影響。
1.數據質量
機器學習系統的應用需要大量數據。這些數據可大致分為兩類:特征和標簽。
特征是機器學習模型的數據輸入。這些數據可以是來自傳感器、客戶調查表、網站cookie或歷史信息的數據。
這些屬性的結果是可變的。例如,客戶可能沒有正確填寫或者不填寫調查問卷;傳感器可能會出現故障并傳遞錯誤的數據;網站cookie可能會提供關于用戶在網站上具體操作的不完整信息。因此數據集的質量是很重要的,這樣才能正確地訓練模型。
數據也可能充滿無用信息,這可能會誤導機器學習模型做出錯誤的預測。
機器學習模型的輸出是標簽。標簽的稀疏性也是一個問題,在稀疏的標簽中,用戶可能知道系統的輸入,但不確定輸出是什么。在這種情況下,檢測模型的特征和標簽之間的關系可能極具挑戰性。這可能是勞動密集型的工作,因為這需要人為干預來將標簽與輸入關聯起來。
如果沒有輸入到輸出的準確映射,那么模型可能無法學習輸入和輸出之間的正確關系。機器學習依賴于輸入和輸出數據之間的關系來創建可用于做出預測,并為未來行動提供建議的概括。當輸入的數據混亂、不完整或發生錯誤時,很難理解出現特定的輸出或標簽的原因。
2.復雜性和質量之間的權衡
建立強大的機器學習模型需要大量的計算資源來處理特征和標簽。編碼復雜的模型需要數據科學家和軟件工程師付出巨大的努力。復雜的模型可能需要大量的計算能力才能執行,并且可能需要更長的時間才能得出可用的結果。
這對企業來說是一種權衡。他們可以選擇做出更快的反應,但準確性可能較低。或者他們可以接受較慢的響應,但可以從模型中獲得更準確的結果。然而進行妥協并不是什么壞事,因為是否要以更快的響應獲得更高的成本和更準確的模型的決定取決于用例。
例如,向零售購物網站上的購物者提出建議需要實時響應,但其結果可能會難以預測。另一方面,股票交易系統需要更可靠的結果。因此,當不需要實時獲得結果時,使用更多數據并執行更多計算的模型可能會提供更好的結果。
隨著機器學習即服務(MLaaS)產品進入市場,權衡的復雜性和質量將得到更多關注。芝加哥大學的研究人員研究了機器學習即服務(MLaaS)的有效性,發現如果他們對分類器和特征選擇等關鍵決策有足夠的了解,他們可以取得與獨立分類器相當的結果。
3.數據中的抽樣偏差
許多企業采用機器學習算法為招聘員工提供幫助。例如,亞馬遜公司發現他們用來幫助企業挑選求職者的算法是有偏見的。此外,普林斯頓大學的研究人員發現,來自歐洲的應聘者將受到一些人工智能系統的青睞,說明其算法引入了一些人類的偏見。
這里的問題不是具體的模型問題,而是用于訓練模型的數據有其自身的偏差。然而,當人們知道數據是有偏差的,可以采用一些方法來消除偏差或減少該數據的權重。
第一個挑戰是確定數據中是否存在固有偏差。這意味著要進行一些預處理。盡管可能無法消除數據中的所有偏差,但可以通過人工干預使其影響最小化。
在某些情況下,可能有必要限制數據中的特征數量。例如,忽略種族或性別等特征可以幫助限制有偏見的數據對模型結果的影響。
4.不斷變化的期望和概念漂移
機器學習模型在特定的場景中運行。例如,為零售商的推薦引擎提供支持的機器學習模型在客戶查看特定產品時的特定時間運行。但是,客戶需求會隨著時間而變化,這意味著機器學習模型可能會偏離其設計要交付的內容。
模型可能會由于多種原因而衰減。將新數據引入模型時,可能會發生漂移。這就是所謂的數據漂移。當人們對數據的解釋發生變化時,也會發生這種情況。這是概念上的漂移。
為了適應這種漂移,企業需要一個模型,該模型可以使用傳入的數據不斷更新,改進自身。這意味著企業需要不斷檢查模型。
這需要收集大量特征和標簽,并對更改做出反應,以便可以更新和重新訓練模型。雖然再培訓的某些方面可以自動進行,但需要一些人為干預。人們必須認識到,機器學習工具的部署不是一次性的活動。
此外,企業采用機器學習工具需要定期檢查和更新,以保持相關性并繼續提供價值。
5.監控與維護
創建模型很容易并且可以實現自動化。但是,維護和更新模型需要計劃和資源。
機器學習模型是從用于訓練模型的特性開始的管道的一部分。然后是模型本身,它是一個需要不斷修改和更新的軟件。該模型需要標簽,以便輸入的結果可以被模型識別和使用。模型和系統中的最終信號之間可能存在脫節。
在許多情況下,如果交付的結果出乎意料,如果不是機器學習出現問題,那么可能是供應鏈中的其他部分出現了問題。例如,推薦引擎可能已經向客戶提供了產品,但是有時銷售系統和推薦之間的連接可能會斷開,并且需要花費一定時間查找錯誤。在這種情況下,很難告訴模型推薦是否成功。對此類問題進行故障排除可能相當耗費人力。
機器學習技術為企業帶來了巨大的好處。預測未來結果以影響客戶行為并支持業務運營的能力非常強大。但是,采用機器學習也給企業帶來了挑戰。企業通過認識到這些挑戰并制定解決方案,可以確保他們準備好并有能力應對這些挑戰,并充分利用機器學習技術。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。