關于我們聯(lián)系我們

九個機器學習的迷思

責任編輯：cres 作者：Mary Branscombe |來源：企業(yè)網(wǎng)D1Net 2018-04-08 13:49:07 原創(chuàng)文章企業(yè)網(wǎng)D1Net

當技術像機器學習一樣被炒得沸沸揚揚時，就會有許多誤解產(chǎn)生。以下是關于機器學習可以提供，或不能提供的清晰視角。

機器學習被證明是非常有用的，人們很容易假設它可以解決所有問題并適用于所有情況。和其它工具一樣，機器學習在特定領域也很有用，特別是對于一直困擾著你，但你永遠不會雇用足夠的人來解決的問題，或者對于有明確目標，但沒有明顯的實現(xiàn)方法的問題。

盡管如此，每個組織都有可能以這樣或那樣的方式利用機器學習，因為42%的高管最近告訴埃森哲，他們預計人工智能將在2021年之前成為他們的創(chuàng)新的后盾。但是，只要你的視野能繞過炒作，并避免下面這些常見的誤解你會得到更好的成果——通過了解機器學習可以實現(xiàn)和不能實現(xiàn)的機制。

迷思：機器學習就是人工智能

機器學習和人工智能經(jīng)常被用作同義詞，但機器學習是最成功地從研究實驗室走出來，邁向現(xiàn)實世界的技術，而人工智能則是一個廣泛的領域，它涵蓋計算機視覺、機器人技術和自然語言處理等領域，以及不涉及機器學習的約束滿足等方法。不妨把它看成是使機器變得智能的一切東西。這些都不是那種一般人所害怕的通用“人工智能”——可以與人競爭甚至攻擊人類的東西。

留意這些流行語并做到準確無誤。機器學習是關于學習模式和預測大數(shù)據(jù)集的結果;結果可能看起來很“智能”，但其本質(zhì)事關以前所未有的速度和規(guī)模應用統(tǒng)計數(shù)據(jù)。

迷思：是數(shù)據(jù)就有用

機器學習需要數(shù)據(jù)，但并非所有的數(shù)據(jù)都可用于機器學習。為了訓練你的系統(tǒng)，你需要有代表性的數(shù)據(jù)，以涵蓋機器學習系統(tǒng)需要處理的模式和結果。你需要不含與模式不相關的數(shù)據(jù)(例如顯示這些內(nèi)容的照片——所有站立的男士和所有坐著的女士，或者所有車輛都在車庫中，所有自行車都在泥濘的場地中)，因為你所創(chuàng)建的機器學習模型將反映那些過于具體的模式，并在你使用的數(shù)據(jù)中查找它們。所有用于訓練的數(shù)據(jù)都需要注上正確的標記，并注上上與你要問機器學習系統(tǒng)的問題相匹配的功能，這需要做很多工作。

不要以為你已經(jīng)擁有的數(shù)據(jù)是干凈，清晰，有代表性或易于標注的。

迷思：你總是需要很多數(shù)據(jù)

最近在圖像識別、機器閱讀理解、語言翻譯和其它領域取得的主要進展已經(jīng)發(fā)生了，因為有了更好的工具，可以并行處理大量數(shù)據(jù)的GPU等計算硬件，以及大量已標記的數(shù)據(jù)集，包括ImageNet和斯坦福問題回答數(shù)據(jù)集(Stanford Question Answering Dataset)。但是，由于有一種稱為遷移學習(transfer learning)的技巧，你并不總是需要大量數(shù)據(jù)才能在特定區(qū)域獲得良好結果。相反，你可以教機器學習系統(tǒng)如何使用一個大型數(shù)據(jù)集進行學習，然后將其遷移到屬于你自己的，更小的培訓數(shù)據(jù)集的學習能力。這就是Salesforce和Microsoft Azure的自定義視覺API的工作原理：你只需要30到50張圖像即可顯示想要分類的內(nèi)容，以獲得良好結果。

遷移學習可讓你使用相對較少的數(shù)據(jù)為你自己的問題定制預先訓練好的系統(tǒng)。

迷思：是人都能創(chuàng)建機器學習系統(tǒng)

市面上有很多用于機器學習的開源工具和框架，以及無數(shù)課程向你展示如何使用它們。但機器學習仍然是一項專門技術;你要知道如何準備數(shù)據(jù)并對其進行分區(qū)以進行訓練和測試，你要知道如何選擇最佳算法以及使用何種啟發(fā)式算法，以及如何將其轉(zhuǎn)化為可靠的生產(chǎn)系統(tǒng)。你還要監(jiān)視系統(tǒng)，以確保結果始終保持相關性;無論你的市場變革還是你的機器學習系統(tǒng)是否好得使你最終會遇到不同的客戶群，你需要繼續(xù)檢驗該模型是否符合你的問題。

要徹底把機器學習弄明白是需要經(jīng)驗;如果你剛剛開始使用API，則可以使用API預先訓練模型，在獲取或聘用數(shù)據(jù)科學和機器學習專業(yè)知識來構建定制系統(tǒng)時，你可以從代碼中調(diào)用該模型。

迷思：數(shù)據(jù)中的所有模式都是有用的

哮喘患者，胸痛或心臟病患者以及任何期頤之年的人的肺炎的存活率遠高于你的期望。實際上，好到只要有一個簡單的用來將入院程序自動化的機器學習系統(tǒng)就可以讓他們安然無恙地回家(一種基于規(guī)則的，和神經(jīng)網(wǎng)絡一樣受訓于相同的數(shù)據(jù)的系統(tǒng)就能做到這個)。不幸的是，他們有如此高的存活率的原因是，他們總是立即入院，因為肺炎對他們來說非常危險。

系統(tǒng)見證了數(shù)據(jù)中的有效的模式;這對于選擇讓誰入院來說并不是一種有用的模式(盡管它可以幫助保險公司預測治療費用)。更危險的是，除非你已經(jīng)了解它們，否則你不會知道這些無用的反模式出現(xiàn)在你的數(shù)據(jù)集中。

在其它情況下，一個系統(tǒng)可以學習一種有效的模式(比如爭議頗多的面部識別系統(tǒng)，它可以準確地從自拍照中預測性取向)，然而它沒有清晰明確的解釋，所以沒有用(在這種情況下，照片看起來似乎顯示了姿勢這樣的社交線索而不是天生的任何東西)。

“黑匣子”模型是高效的，但它沒有澄清他們到底學到了什么模式。像廣義加性模型(Generalized Additive Model)這樣的更透明，可理解的算法可以更清楚地了解模型的學習內(nèi)容，從而讓你決定它是否適用于部署。

迷思：強化學習隨時可以使用

幾乎所有當今使用的機器學習系統(tǒng)都使用監(jiān)督學習;在大多數(shù)情況下，他們接受了人類參與準備的明確標記的數(shù)據(jù)集的培訓。管護這些數(shù)據(jù)集需要時間和精力，所以人們對非監(jiān)督形式的學習，特別是強化學習(RL)有很大的興趣——在這里，艾真體(agent)通過試錯法學習，通過與環(huán)境交互并因為正確的行為而獲得獎勵。DeepMind的AlphaGo系統(tǒng)使用強化學習與監(jiān)督式學習一同戰(zhàn)勝了最高段位的圍棋選手，而由卡內(nèi)基梅隆大學的團隊建立的系統(tǒng)Libratus使用強化學習和另外兩種人工智能技術在無限德州撲克擊敗了一部分世界上最好的撲克玩家(具有漫長而復雜的投注策略)。研究人員正在用機器學習對一切進行強化試驗——從機器人技術到安全軟件的測試。

強化學習在研究領域之外并不常見。谷歌使用DeepMind學習更高效地降低數(shù)據(jù)中心的溫度，從而節(jié)省數(shù)據(jù)中心的電力;微軟使用強化學習的一個特別版本，稱為上下文賭博機(contextual bandit)，它為MSN.com的訪客定制個性化的新聞頭條。問題在于很少有現(xiàn)實環(huán)境有可輕易發(fā)現(xiàn)的獎勵和即時反饋，當艾真體在發(fā)生任何事情之前采取多項行動時，分配獎勵就尤其棘手了。

迷思：機器學習沒有偏差

由于機器學習從數(shù)據(jù)中學習，它將復制數(shù)據(jù)集中的任何偏差。搜尋首席執(zhí)行官的圖像可能會顯示白人男性首席執(zhí)行官的照片，因為有更多的首席執(zhí)行官通常是白人男性。但事實證明，機器學習也會放大偏差。

經(jīng)常用于訓練圖像識別系統(tǒng)的COCO數(shù)據(jù)集具有男性和女性的照片;但更多的女性是在廚房設備旁邊得到展示，更多的男性則和電腦鍵盤和鼠標或網(wǎng)球拍和滑雪板一起得到展示。在COCO上訓練系統(tǒng)，它會比原始照片中的統(tǒng)計數(shù)據(jù)更強烈地把男性和計算機硬件聯(lián)系起來。

一個機器學習系統(tǒng)也可能給另一個機器增加偏差。訓練這樣一個機器學習系統(tǒng)——它具有將單詞表征為向量的流行框架——來表示詞之間關系的向量，它將學習像“男人之于女人正如計算機程序員之于家庭主婦”或醫(yī)生之于護士正如老板之于前臺那樣的刻板印象。如果你使用這樣的系統(tǒng)，這個系統(tǒng)把那些具有他和她這樣的代詞的語言(如英語)翻譯成具有中性代詞的語言(如芬蘭語或土耳其語)，那么“他們是醫(yī)生”就會變成“他是醫(yī)生”，“他們是護士”變成“她是護士”。(譯注，最后一句話有點費解，但是結合中文網(wǎng)絡用語中誕生的新代詞TA就不難理解了，因為不確定被指稱的人的性別，所以寫作TA，而不是他或她，相當于英語的he or she，而有些語言中則用復數(shù)形式表示中性性別，如they表示he or she，這里可以理解為they=TA，把這個中文新詞套進去就不難理解了)

在購物網(wǎng)站上獲得類似的建議是有用的，但在涉及敏感領域時會產(chǎn)生問題，并且會產(chǎn)生反饋回路;如果你加入反對疫苗接種的臉書群，臉書的推薦引擎將建議其它關注陰謀論或者認為地球平的群。

了解機器學習中的偏差問題是很重要的。如果你無法消除訓練數(shù)據(jù)集中的偏差，請使用規(guī)則化詞對之間的性別關聯(lián)等技術來減少偏差或?qū)⒉幌嚓P的項目添加到建議中以避免“過濾氣泡(filter bubble)”。

迷思：機器學習只用于做好事

機器學習為防病毒工具提供了強大的功能，并著眼于全新攻擊的行為，以便一出現(xiàn)就能發(fā)現(xiàn)它們。但同樣地，黑客也正在使用機器學習來研究防病毒工具的防御措施，并通過分析大量公共數(shù)據(jù)或分析以前的網(wǎng)絡釣魚嘗試的成功來大規(guī)模地制作有針對性的網(wǎng)絡釣魚攻擊。

迷思：機器學習會取代人

人們常常擔心人工智能會搶走他們的飯碗，它肯定會改變我們所從事的工作以及我們的做事方式;機器學習系統(tǒng)可以改善了效率和合規(guī)性并降低了成本。從長遠來看，它將在業(yè)務中創(chuàng)造新的角色，并使一些當前職位顯得過時。但是機器學習所自動化的很多任務在以前根本就不可能做到，要么歸咎于復雜性，要么歸咎于為規(guī)模，例如，你無法聘請足夠多的人來查看發(fā)布到社交媒體上的每張照片，以查看它是否具有你的品牌特征。

機器學習已經(jīng)開始做的事情是創(chuàng)造新的商機，例如通過預測性維護改善客戶體驗，并向業(yè)務決策者提供建議和支持。和前幾代自動化一樣，機器學習可以把員工解放出來，使他們可以盡情地應用自己的專業(yè)知識和創(chuàng)造力。

關鍵字：大數(shù)據(jù)機器學習