您的社交媒體新聞提要由機器學習算法提供支持。您、看到的推薦視頻是機器學習模型的結果。Spotify的“發現周刊”利用機器學習算法的強大功能來創建符合您喜好的歌曲列表。
但是機器學習有許多不同的風格。在這篇文章中,我們將探討有監督和無監督學習,這是機器學習算法的兩個主要類別。每個子集由許多適合各種任務的不同算法組成。
關于機器學習的快速筆記
在深入研究有監督和無監督學習之前,我們先來了解一下什么是機器學習。當今的AI系統以最簡單的形式將輸入轉換為輸出。例如,圖像分類器將圖像或視頻幀作為輸入,并輸出圖像中包含的對象的種類。欺詐檢測算法將支付數據作為輸入,并輸出交易欺詐的可能性。下棋的AI將棋盤的當前狀態作為輸入并輸出下一個動作。
開發智能系統的經典方法稱為符號人工智能,要求程序員明確指定將輸入映射到輸出的規則。盡管符號AI有很多好處,但在輸入可以以多種形式出現的領域中使用有限,例如計算機視覺,語音識別和自然語言處理。
相反,機器學習使用不同的方法來發展行為。在創建ML系統時,開發人員會創建一個通用結構,并在許多示例中進行培訓。這些示例可以是帶有相應圖像的圖片,國際象棋游戲數據,客戶購買的物品,用戶聽過的歌曲或與AI模型要解決的問題有關的任何其他數據。在分析了訓練數據之后,機器學習算法對其內部參數進行了調整,以能夠處理新的輸入數據。
監督學習
Logistic回歸是一種有監督的機器學習算法,可以將輸入分類為不同的類
如果您關注人工智能新聞,您可能已經聽說過AI算法需要很多人工標記的示例。這些故事指的是監督學習,這是機器學習算法中比較流行的類別。監督式機器學習適用于您知道輸入數據結果的情況。假設您要創建一個圖像分類機器學習算法,該算法可以檢測貓,狗和馬的圖像。
要訓練AI模型,您必須收集貓,狗和馬照片的大型數據集。但是在將它們輸入機器學習算法之前,您必須使用它們各自類的名稱對其進行注釋。批注可能包括使用文件命名約定將每個類的圖像放在單獨的文件夾中,或將元數據附加到圖像文件中。這是費力的手動任務,在提到AI血汗工廠的故事中經常提到。
標記數據后,機器學習算法(例如卷積神經網絡或支持向量機)將處理這些示例并開發可將每個圖像映射到其正確類別的數學模型。如果對AI模型進行足夠的帶標簽的示例訓練,它將能夠準確地檢測出包含貓,狗,馬的新圖像類別。
監督機器學習解決了兩種類型的問題:分類和回歸。上面說明的示例是一個分類問題,其中機器學習模型必須將輸入放入特定的存儲桶或類別中。分類問題的另一個示例是語音識別。
回歸機器學習模型不限于特定類別。它們可以具有連續的無限值,例如客戶將為產品支付多少費用或明天下雨的可能性。
一些常見的監督學習算法包括:
· 線性和邏輯回歸
· 樸素貝葉斯
· 支持向量機
· 決策樹和隨機森林
· 人工神經網絡
· 無監督學習
假設您是一個電子商務零售企業所有者,他擁有成千上萬的客戶銷售記錄。您想找出哪些客戶有共同的購買習慣,以便您可以使用該信息向他們提出相關建議并改善您的追加銷售政策。問題是您沒有預定義的類別將客戶劃分為多個類別。因此,您不能訓練監督式機器學習模型來對客戶進行分類。
這是一個聚類問題,主要用于無監督機器學習。與監督學習不同,無監督機器學習不需要標記數據。它仔細研究了訓練示例,并根據它們的共同特征將它們分為幾類。訓練有素的無監督機器學習算法會將您的客戶劃分為相關的集群。這將幫助您根據客戶與集群中其他人的共同偏好來預測客戶將購買的產品。
K-means是眾所周知的無監督聚類機器學習算法。使用k均值的挑戰之一是知道將數據劃分為多少個群集。太少的包會打包不太相似的數據,而太多的簇只會使您的模型復雜且不準確。除了聚類之外,無監督學習還可以執行降維。當數據集具有太多特征時,可以使用降維。假設您有一個有關客戶的信息表,該表有100列。擁有有關您的客戶的大量數據可能聽起來很有趣。但實際上并非如此。
隨著數據中功能數量的增加,您還將需要更大的樣本集來訓練準確的機器學習模型。您可能沒有足夠的樣本來訓練100列模型。太多的功能也增加了過度擬合的機會,這實際上意味著您的AI模型在訓練數據上表現良好,而在其他數據上表現不佳。
無監督的機器學習算法可以分析數據并找到不相關的特征,可以將其刪除以簡化模型而不會失去寶貴的見解。例如,對于我們的客戶表,通過降維算法運行它之后,我們可能會發現與客戶的年齡和家庭住址相關的功能幾乎沒有關聯,因此可以將其刪除。
主成分分析(PCA)是一種流行的降維機器學習算法。一些安全分析師還使用無監督的機器學習進行異常檢測,以識別組織網絡中的惡意活動。
無監督學習的好處之一是,它不需要監督學習必須經歷的費力的數據標記過程。但是,要權衡的是,評估其性能的有效性也非常困難。相反,通過將監督學習算法的輸出與測試數據的實際標簽進行比較,可以很容易地衡量監督學習算法的準確性。