為了深入了解創建人工智能和機器學習模型所需的技能集,需要了解模型創建過程,這是由機器學習軟件逐步學習完成的,以及生成符合預定義成功標準的模型所面臨的挑戰。
機器學習軟件使用數據來訓練一個模型,這個模型構成了人工智能產品,可以通過定期更新人工智能輸入數據在一段時間內重復使用。機器學習軟件有四種基本的學習類型:
•監督:包括讓算法學習數據,同時使用數據上的標簽提供正確答案。這本質上意味著要預測的類或值從一開始就是已知的,并且對算法進行了很好的定義。
•無監督:與有監督的方法不同,算法并不提供正確答案或任何答案,由算法自行決定是否收集相似的數據并加以理解。
•半監督學習:監督和非監督學習的混合。
•強化:在強化學習中,每一次正確的預測都會給予算法獎勵,從而提高準確率。
需要數據科學專業知識來確定機器學習軟件中用于擬合特定數據集的最佳統計算法。
在眾多的統計算法中,比較流行的有:用于情感分析、垃圾郵件檢測和推薦的樸素貝葉斯算法;用于結果預測的決策樹;可以合并多個決策樹來改進預測的隨機森林;用于二元分類(A或B)邏輯回歸;AdaBoost、Gaussian Mixed、Recommender和K-Means聚類將數據重新組織,如市場細分。
訓練人工智能和機器學習模型
機器學習有三個不同的學習(也稱為訓練)階段:訓練、驗證和測試。在開始之前,必須確保數據組織良好且無誤。盡管這一概念很簡單,但將數據轉換為有序性可能是一個耗時且面向細節的過程,可能需要人工處理。
其目標是數據不存在重復、拼寫錯誤和斷開連接。在清理之后,數據被隨機分成三組,分別用于三個訓練階段。隨機數據劃分的目的是阻止選擇數據偏差。
以下是一些與模型創建相關的定義:
•參數。模型參數是機器學習軟件在訓練過程中從人工智能輸入數據自動學習的值,盡管用戶可以在訓練過程中人工更改參數值。例如,會話期間要進行的最大通過次數和訓練數據的最大模型大小(以字節為單位)。
•超參數。超參數位于機器學習外部,由數據科學家用戶預先輸入,因此超參數不是從人工智能數據中派生出來的,可以在訓練過程中更改。超參數的例子包括使用聚類算法時返回的簇數和神經網絡中的層數。
•變量。機器學習軟件會選擇特定的人工智能數據輸入字段,并在訓練過程中使用額外的變量。其變量可以是年齡、身高和體重。
在開始訓練(第一階段)之前,給數據添加標簽是很重要的,這樣機器學習軟件就可以繼續從數據中獲取重要的線索,以幫助它學習。無監督學習不需要添加標簽。機器學習軟件的默認參數值也可以用來啟動或參數可以單獨更改。
準確性測試模型
當訓練階段滿足成功標準時,就進入了驗證階段。第一遍使用一組新的數據。如果結果良好,就進入最后的測試階段。
如果沒有得到理想的結果,則可以讓機器學習軟件對數據進行額外的傳遞,直到機器學習軟件沒有顯示新的模式或達到最大的傳遞次數。隨著訓練的推進,這些參數由機器學習軟件或管理它的人員自動修改。
測試階段是針對一組新數據的“期末考試”——但這一次缺少“輔助”數據標簽(僅用于監督學習)。如果軟件通過了成功的標準測試,它就是一個工作模型。如果沒有,那就繼續訓練。和以前一樣,測試團隊可以人工修改參數,或者讓機器學習軟件在訓練過程中自動修改參數。
人工智能的機器學習是機器學習軟件暴露數據的重復回放,參數由機器學習軟件自動迭代改變(可能由人工修改),以使模型在每次經過測試之后更智能。機器學習軟件繼續對數據進行多次遍歷,直到意識到沒有檢測到新的模式,或者直到它達到最大遍歷次數,從而使其停止。
人工智能模型的持續維護
保持警惕(監控)是享受人工智能自由的代價。要確定人工智能模型的表現如何,一個典型的方法是監測實際表現與人工智能預測的匹配程度。如果人工智能預測表現不佳,就應該重新進入機器學習模型訓練過程,使用最新的數據修正模型。
需要記住的是,輸入的數據很容易隨時間而改變,這就是交易中的數據漂移。數據漂移可能會導致人工智能模型的準確性下降,因此早期數據漂移預警對于保持問題的領先至關重要。人工智能工具可以跟蹤數據漂移并找到離群數據,如Fiddler、Neptune和Azure ML,這些工具可以提供早期預警,因此數據問題可以通過機器學習的更新盡早解決。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。