最近,我采訪了Terbium Labs的首席技術官Clare Gollnick,科學的了解了關于AI再現性危機和其對數據科學家的影響。該內容似乎真的與聽眾產生了共鳴(根據我們通過演出筆記頁面和Twitter收到的評論數量來判斷),原因有幾個。
綜上所述,許多自然和社會科學的研究人員報告表明他們無法重現彼此的發現。2016年的一項自然調查顯示,超過70%的研究人員試圖重現另一名科學家的試驗,而超過半數的人未能重現他們自己的試驗。這一發現對研究人員進行科學研究的方式有著深遠的影響。
Gollnick認為,造成重現失敗的一共重要原因是“p-hacking”的概念——即在您確定關于潛在因果關系的特定假設之前,檢查您的實驗數據,直至找到符合統計顯著性標準的模式。P-hacking被稱為“數據捕魚”有一個原因:你正在從你的數據向后工作到一種模式,這打破了首先確定統計顯著性的假設。
Gollnick指出,數據捕撈真是機器學習算法所做的事情,盡管他們從數據到模式的關系都是逆向工作的。因此,數據科學家可以成為自然科學家所犯同樣錯誤的受害者。特別是在科學領域的P-hacking,類似于開發一種過于適合的機器學習模型。對于數據科學家來說,幸運的是,我們很清楚交叉驗證,即研究者在訓練數據集上生成假設,然后在驗證數據集上進行測試,這是一種必要的時間。正如Gollnick所說,在驗證集上的測試很像做一個非常具體的預測,除非你的假設是正確的,否則不太可能發生,這本質上是最純粹的科學方法。
除了科學,人們越來越關注機器學習中再現性危機。谷歌研究工程師Pate warden最近發表的一篇博客文章談到了數據科學家和其他崇業者所面臨的一些核心的可重復性。Warden引用了當前機器和深度學習方法的迭代性質,以及數據科學家不容易在每次迭代中記錄他們的步驟的事實。此外,深度學習的數據科學堆棧有很多可移動的部分,并且這些層的任何變化——深度學習框架、GPU驅動程序、培訓或驗證數據集——都會影響結果。最后,對于像深層神經網絡這樣不透明的模型,很難理解語氣和預測結果之間差許多簡化的假設或實現細節,使其他人更難復制他們的工作,這進一步加劇了這些問題。
在深度學習的過程中,我們真的不知道為什么、什么時候或者在多大程度上深入學習,從而進一步加深了對深度學習結果的研究。在2017年NIPS大會上的獲獎感言中,谷歌的AI Rahimi將現代機器學習比作煉金術。他解釋說,煉金術給了我們冶金、現代玻璃制造和藥物治療,煉金術師也相信他們可以用水蛭來治療疾病,并將賤金屬轉化為黃金。同樣,雖然深度學習為我們提供了難以置信的數據處理新方法,但Rahimi呼吁負責醫療保健和公共政策關鍵的系統“建立在可驗證的、嚴格的、全面的知識上”。
Gollnick和Rahimi聯合倡導對我們使用的模型的工作方式和原因提供更加深入的了解,這樣做可能意味著一切將回到基礎,也許能追溯到科學方法的基礎上。Gollnick在我們的談話中提到,她最近為“數據哲學”著迷——也就是對科學知識的哲學探索,對某些事物的確定意味著什么以及數據如何支持這些。
事實上,我們有理由認為,隨著現代機器學習方法應用范圍的擴大,任何迫使我們面對諸如解釋能力、因果關系和確定性等問題的思維聯系都有很大的價值。在像Karl Popper和Thomas Kuhn這樣的現代科學哲學家的著作以及18世紀的經驗主義者David Hume的指導下,這種對我們方法的深刻反思對整個人工智能領域都有所幫助。