機器學習也可能會出現嚴重的問題,以至于可能會讓你后悔當初如此匆忙地采用它。
機器學習是當下的熱門技術之一,許多業務和技術高管都在爭相了解他們的組織可以如何參與其中。如果操作得當,機器學習可以幫助您創建更有效的銷售和營銷活動,改進財務模型,更輕松地檢測欺詐,提高設備的預測性維護,好處不一而足。
但是機器學習也可能會出嚴重的錯誤,讓你悔不該當初。根據采用機器學習的公司的實際經驗,這里有五種機器學習可能出錯的方式。他們分享了他們的經驗,希望你可以吸取經驗以避免同樣的失敗。
教訓1:錯誤的假設使機器學習偏離了軌道
Projector PSA是美國一家設計和制造專業服務自動化軟件的公司,并幫助咨詢公司經營業務。當它試圖用機器學習來預測人員配置計劃的差異時,它慘痛地吸取了這一教訓。
因為咨詢公司里面都是專業的、訓練有素的顧問,能有效地利用他們的才能,所以公司經常需要雇傭項目經理來評估和預測他們項目的人員需求。
然后,他們跟蹤顧問花在每個項目上的時間,以便向客戶收取費用。如果組織在單一系統(例如專業的服務自動化工具)中同時管理這兩項活動,則有一些明顯的優勢,例如能夠將預測與實際時間進行比較,從而了解不同的項目經理在規劃方面的準確性。
Projector PSA的首席運營官Steve Chong回憶說,該公司與一位客戶開始了一項研究,該客戶雇傭了數百名的項目經理。它建立的模型比較了在不斷增加的規劃范圍內實際工作的平均小時數與預測小時數之間的差異。它還在幾個月的時間里研究了項目經理預測的一致性以及可變性。
也就是說,如果在一周內預測過高,而在下一周預測過低(高可變性),Projector PSA希望知道這兩者是否能夠相互抵消,讓預測的平均值差異很小,或者說方差很小。
“最初的前提是低方差和低可變性是好的,而高方差和高可變性是壞的,”Chong說?;谶@一前提,Projector PSA實現了一種機器學習算法,將項目經理分為不同的群體,比如“囤積者”和“樂觀主義者”,基于這些數據,該算法使用公司項目經理的樣本作為訓練集。
然后,公司讓機器學習算法根據學到的知識對剩下的項目經理進行分類。事實證明,它將一些公司最有經驗和受過良好培訓的項目經理列為了最糟糕的違規者,因為他們具有高的方差和高的可變性。
他說:“事實上,這些項目經理是公司能夠針對那些已經陷入困境的項目提出解決方案的人,他們希望這些項目能夠得到控制。”
類似地,最初的機器學習算法對一個項目經理的評價很高,因為她的方差和可變性幾乎為零。但事實證明,她將預測的時間發送給她的團隊,隱含著一種期望,即他們會將這些時間報告為他們實際工作的時間。Chong表示,這導致了她從未超出預算或出現預算不足的局面,但這樣做實際上鼓勵了她的團隊以不利于大局的方式行事。
“這些錯誤不是機器學習算法本身造成的,而是我們最初訓練它們時的假設造成的,”Chong說。“它們只是還原了完全依賴于數據而沒有充分了解數據所代表的現實。”
一旦該公司訓練其機器學習算法識別了這些新的配置文件,它就會覺得它能更好地反映現實。
教訓2:無監督的機器學習可能會有意想不到的偏差
雖然許多任務可以通過機器學習來完成,但是因為有些情況在項目開始時并沒有被考慮到,從而導致機器學習產生了錯誤的結果。這就是巴西金融服務公司Mejor Trato的遭遇,該公司將機器學習作為人力資源部門數字化轉型的一部分。
該項目涉及讓潛在的新員工通過實時聊天和使用公司內部開發的機器學習聊天機器人來回答一系列問題。
最初使用聊天機器人時出現了兩個關鍵問題。一個是要求求職者填寫了錯誤的個人資料/職業表格。另一個問題是,給出了與人力資源員工會議重疊的面試時間,這意味著人力資源員工無法根據需要監控聊天機器人。
CTO Cristian Rennella表示,在最初幾周,HR團隊中的一些人需要對每一次對話進行監控,以便在必要時糾正機器人,這一點至關重要。“我們犯了一個錯誤,以為一切都解決了,沒有監督就離開了聊天機器人,”她說。教訓是“不要忘記在幾個月內持續監控聊天機器人的全職工作。”
由于沒有對聊天機器人進行微調,該公司斷定,收集到的數據中有10%是錯誤的。
Rennella說:“機器學習在一開始可能會對90%的答案有用,但是剩下的10%應該由人工監督來修正算法。”隨著時間的推移,可用性將從90%增加到99%,“但我們不能停止關注可能出現的偏差甚至新情況,當我們開始這個項目時,這是出乎意料的,”她說。
教訓3:糟糕的數據標注會損害機器學習的結果
俄羅斯的兩家關聯公司Ashmanov神經網絡和SOVA(智能開放式虛擬助理)在為其商業客戶開發基于機器學習的產品。其內容包括了視頻分析、自然語言處理、信號處理和神經網絡。
兩家公司的首席執行官Stanislav Ashmanov表示,公司在機器學習方面遇到的最大問題之一是基于標簽難度的糟糕數據。 “提供高質量的數據標簽是非常困難的,”Ashmanov說。“通常情況下,從事數據標識工作的人都很草率,因為他們經常只是匆忙地工作著。更重要的是,以一種每個人都能以同樣的方式和理解任務的方式來傳遞任務是非常困難的。”
因此,這些數據可能包含多個標記的樣本,比如圖片中錯誤識別的輪廓,這些樣本對訓練后的神經網絡的性能多少產生了一些影響。
在短時間內收集所需的大量數據也很有挑戰性。Ashmanov說,數據收集可能需要幾個月的時間。此外,從公開渠道收集的數據,比如在互聯網上找到的數據,并不總是能夠準確地反映現實。例如,在工作室或實驗室拍攝的照片可能與現實生活中的街景或工廠生產單元快照截然不同。結果,這樣訓練出的神經網絡的性能會很低。
作為客戶項目的一部分,當公司訓練神經網絡來識別在線自拍中的眼鏡時,就出現了一個可能出錯的例子。他們從社交媒體上收集了一些照片并貼上標簽。Ashmanov說,神經網絡的表現質量很低,因為它把眼睛下面有黑眼圈的人誤認為戴著眼鏡。
另一個客戶提交了一個城市的兩幅衛星圖像。任務是在圖像中標記汽車,并教神經網絡識別它們并計算它們的近似數量。在這個例子中,問題是神經網絡將建筑屋頂上的壁架也識別為汽車,因為它們在外觀上相似——它們都是小的、矩形的,而且大多是深色的。
“這一切都取決于對特殊案例的仔細研究,創建啟發式方法,以及改進初步數據處理和后處理證明檢查,”Ashmanov說。
教訓4:過于細微的分類問題可能會混淆機器學習
Casepoint是美國一家為法律行業和其他市場提供電子發現技術的公司,它也經歷了機器學習算法的缺陷問題。該公司使用機器學習來進行文檔分類和預測分析。通過使用這項技術,法律團隊可以大大減少審查和分類文件的時間。
首席戰略官David Carns表示,利用機器學習對文件進行分類是有效的,但并非完美無缺。該公司發現的一個弱點是,人們會過度依賴機器學習來解決微妙、復雜的分類問題。
例如,在法律領域,機器學習文檔分類器經常用于識別響應“生成文檔請求”的文檔。甲方要求提供與特定主題或內容相關的文檔,乙方可以使用機器學習文檔分類器進行分類來幫助篩選文檔存儲庫以獲取響應文檔。
Carns說,這種方法非常有效,律師已經開始定期使用這種技術來輔助審查(TAR)文件。“這種成功導致人們希望能夠盲目地使用機器學習文檔分類器來進行更細微的分類,例如識別受律師-客戶特權保護的文檔,”他說。
雖然使用機器學習對文檔分類器進行特權文檔內容的訓練很容易,但是如何使文檔具有合法特權在很大程度上取決于文檔的受眾、保密性、接收時間以及與法律咨詢或訴訟的關系。Carns說,大多數機器學習文檔分類器無法對這些額外的上下文線索進行充分分類。
Carns說:“這并不意味著機器學習文檔分類器不能幫助對潛在的特權文檔進行選擇和分類。但法律專業人士不應僅僅依靠機器學習來確定特權。”他說,如今,人類律師需要手動審查潛在的特權文件,以便最終決定是否適用法律特權。
教訓5:測試/訓練數據的污染可能會影響機器學習
美國自動化公司Indico多年來一直在為客戶提供企業人工智能和深度學習服務,它不斷遇到的最大問題之一是機器學習測試和訓練數據的污染。
CTO Slater Victoroff說,一個客戶正在創建一個模型來確定一條新聞是否會影響其股價。由于很難準確地確定影響時間,所以公司創建了一個模型來預測第二天的影響。
“他們沒有意識到的是,他們忽略了確保測試/訓練數據完全分開的數據科學基礎,”Victoroff說。“因此,在預測第二天的影響方面,他們給出了接近100%的準確率,而實際上,這個模型并不會比隨機的模型更好。”
另一次體驗則涉及到一名客戶查看其內部自然語言處理( NLP )系統??蛻粲幸粋€團隊,多年來一直在為機器學習模型創建和更新功能,并根據同一組搜索結果不斷測試這些功能。該團隊也經歷了測試/訓練數據污染的影響。Victoroff說:“如果你看到你的測試錯誤就改變你的算法來改進你的測試錯誤,你的數字就不再準確了。”
在一些特殊情況下,人們對該問題的理解往往不足。在內部,該模型對于特定任務實現了接近100%的準確性。“但在生產過程中,該系統往往無法正常運行,因為他們無意中污染了他們的結果,”Victoroff說。“任何組織在機器學習中最關鍵的錯誤都是測試/訓練數據的污染問題。”