構建從數據中學習的系統是解決復雜問題的更好方法,可以提供足夠的有意義的數據來學習。
也許人們可能不只一次聽說過“機器學習”這個術語。機器學習通常與人工智能互換使用,實際上是人工智能的一個子集,二者誕生于20世紀50年代后期的麻省理工學院。
不管人們知道與否,機器學習都是人們每天都可能遇到的事情。Siri和Alexa是語音助手,Facebook和微軟公司的面部識別,亞馬遜和Netflix的建議,讓自主駕駛汽車不會崩潰的技術都是機器學習進步的結果。
雖然仍然沒有像人腦一樣復雜,但基于機器學習的系統已經取得了一些令人印象深刻的專長,比如擊敗國際象棋,智力競賽Jeopardy,圍棋和德州撲克的人類挑戰者。
幾十年來,由于過度炒作并且不切實際的發展,使得人工智能發展處于低潮。近年來由于一系列的技術突破,成本低廉的計算能力爆炸式增長,人工智能和機器學習在過去幾年中已經有了巨大的復蘇,大量的機器學習模型用于處理數據。
自學習軟件
那么什么是機器學習呢?先來看一下它不是什么:一個傳統的手工編碼的人工編程計算應用程序。
與傳統的軟件不同,傳統的軟件在遵循指令的同時也很可怕,但機器學習系統本身就是自己編寫的,通過實例進行泛化來開發自己的指令。
典型的例子是圖像識別。向機器學習系統展示足夠狗的照片(標記為“狗”),以及貓,樹,嬰兒,香蕉或任何其他物體(標記為“不是狗”)的圖片,如果系統進行正確訓練,最終將會擅長識別狗,而并沒有人曾經告訴它,狗應該是什么樣子的。
電子郵件程序中的垃圾郵件過濾器普是機器學習中的一個很好的例子。在接觸了數以百萬計的垃圾郵件樣本以及非垃圾郵件之后,它學會了識別那些令人討厭的有害信息的關鍵特征。雖然它并不完美,但它通常是相當準確的。
監督與無監督學習
這種機器學習被稱為監督學習,這意味著有人將機器學習算法暴露于一組龐大的訓練數據,研究其輸出,然后不斷調整其設置,直到產生預期結果(這類似于當過濾器意外收集合法郵件時,單擊收件箱中的“不是垃圾郵件”按鈕。人們所做的越多,過濾器的準確性越高)。
最常見的監督學習任務涉及分類和預測(即“回歸”)。垃圾郵件檢測和圖像識別都是分類問題。預測股價則是回歸問題的典型例子。
第二種機器學習叫做無監督學習。這就是系統通過大量數據來了解“正常”數據的樣子,因此它可以檢測異常和隱藏模式。無監督的機器學習在你不知道你在尋找什么的時候是有用的,所以人們不能訓練系統找到它。
無監督的機器學習系統可以識別大量數據的模式比人類的速度要快許多倍,這就是為什么銀行使用它們來標記欺詐性交易,營銷人員部署它們來識別具有相似屬性的客戶,安全軟件使用它們來檢測網絡上的惡意活動的原因。
聚類和關聯規則學習是無監督學習算法的兩個例子。聚類是客戶細分背后的秘密規則,例如,關聯規則學習用于推薦引擎。
機器學習的局限性
因為每個機器學習系統創建自己的連接,所以一個特定的實際工作可以是一個黑盒子。人們不能總是逆向工程來發現為什么系統可以區分哈巴狗和波斯狗。只要它有效,這并不重要。
但是,機器學習系統只能與其暴露的數據一樣好,而這是一個“垃圾輸入,垃圾輸出”的典型例子。當訓練不足或暴露于不足的數據集時,機器學習算法會產生的結果不僅是錯誤的,而且是歧視性的。
惠普公司在2009年面臨麻煩,當時惠普公司生產的MediaSmart筆記本電腦上的網絡攝像機內置的面部識別技術無法識別非裔美國人的臉。2015年6月,Google相冊應用程式中的錯誤算法將兩名黑人錯誤地標記為大猩猩。
另一個戲劇性的例子:微軟公司失敗的Taybot在2016年3月的一個實驗中,試驗人工智能系統是否可以通過學習Twitter的言論來模擬人類的對話。在不到一天的時間里,Twitter將Tay變成了一個充滿了憎恨言論的聊天機器人。而這就是糟糕的培訓數據。
機器學習詞典
但是機器學習確實是人工智能的尖端。與機器學習密切相關的其他術語是神經網絡、深度學習和認知計算。
神經網絡。是一種旨在模擬人類大腦神經元結構的計算機架構,每個人造神經元(微電路)連接到系統內的其他神經元。神經網絡分層布置,一層神經元將數據傳遞到下一層的多個神經元,依此類推,直到最終達到輸出層。這個最后一層是神經網絡給出最好的猜測,也就是說,這個狗一樣形狀的物體是什么,以及一個置信度分數。
有多種類型的神經網絡來解決不同類型的問題。具有大量層次的網絡稱為“深層神經網絡”。神經網絡是機器學習場景中使用的最重要的工具,但不是唯一的工具。
深度學習本質上是一種機器學習,使用多層(深層)神經網絡基于“不完美”或不完整的信息來作出決定。深度學習系統DeepStack去年12月打敗了11名職業撲克玩家,其在每場投注后不斷重新計算其戰略。
認知計算。沃森的創造者IBM公司了解計算機與人工智能的區別,IBM公司認為認知計算可以代替人類智能,認知計算旨在增強認知計算能力,可以使醫生更準確地診斷疾病,財務經理做出更明智的建議,律師更快地搜索法律案例等。
這當然是一個非常膚淺的概述。那些想要更深入地學習人工智能和機器學習的復雜性的人可以從專門的培訓機構學習。
盡管如今人工智能有一些炒作的成分,但人們知道機器學習和與之相關的技術正在改變世界,這并不夸張。人們在其技術應用爆發之前,最好先了解一下。