2018年1月28日上午,《麻省理工科技評論》新興科技峰會EmTech China于北京國貿大酒店正式召開。Dan Roth 自然語言處理頂級專家,賓夕法尼亞計算機與大學教授發表了演講——《利用非數據化結構 AI的崛起》。
以下附上演講的文字記錄:
當我們連接wifi的時候,或者當你在下載的時候,會出現一個提示框詢問你是否接受用戶協議。這是一份很長的文本,那么你要接受嗎?要認同嗎?可能你會回答,對,我要接受,哪怕這個時候,可能你還沒有讀完這份長長的文本。
但是這個文本中會涉及很多問題,比如,它會如何利用我的個人信息?不會侵害我的隱私?我們需要了解這些知識,這個文本能不能讓用戶清楚了解這些相關的保密內容呢?
我們現在還沒有一種穩定的方法可以去了解整個文本的內容,這就是我們現在遇到的問題。這個問題不僅是一個科學上的問題。這些文本關乎我們個人信息的安全性,這是每個人都要面對的問題。我們接觸到的絕大多數數據是非結構性的。
從科學領域,再到醫學、教學、商業、互聯網等等,包括我們的郵件都是非結構性數據。這背后的挑戰就是,我們如何去了解這些數據的結構,我們如何建立一個系統,可以去分析、利用它們,了解其背后的意義。
這就是自然語言處理領域近期,尤其是近幾年的一個重要任務。今天,我來給家解釋一下,為什么非結構性的數據處理這么難?我們要采取什么樣的措施?
我們從一個簡單的故事開始。這是美國二年級學生的一道閱讀測試題,有三個名字:Kris Robin、Kiris和Ms. Robin,大家覺得他們是同一個人的名字嗎?我想大多數人都覺得不是。
為什么不是呢?因為通過閱讀理解,大家會覺得其中有一個可能是父親。雖然這篇文章中沒有明確指出這一點,但是大家可以推斷出來。這樣一道題,有人做對,有人做錯,有人可能做的很快,有人則可能會慢一點。
那么我們如何幫助計算機快速地做出選擇呢?其實,這個故事中是有很多陷阱的,有的人會被誤導。
文章中往往有很多的邏輯詞,有很多時間節點,比如說三年前五年前,還有一些定性和定量的詞語,讓我們可以分析和梳理人物之間的關系。哪怕是一個很簡單的問題,我們也需要通過邏輯來梳理。
對計算機而言,這是一個比較復雜的問題。為什么呢?因為這背后有兩層邏輯。表層語言層和底層意義層。
語言層具有模糊性,因此可能會產生歧義,所以我們需要去了解它的背景,推測它的言外之意來消除這樣的歧義。除此之外,語言層還具有多樣性。我們想要表達的每一點,都可以通過不同的方式表達出來。這兩個特點就使得語意理解非常困難。
再給大家舉一個例子,這里有三篇文本,都提到了芝加哥。我來自芝加哥。我這么說,它可能沒有別的意思。但如果我提到芝加哥樂隊,或者芝加哥的足球隊,或者提到與它相關的專輯。
傳統的編程能力暫時沒辦法幫助我們解決語言的模糊性問題。所以我們就要利用最新的機器學習去減少文本中的模糊性,去連接語言中的邏輯,去解讀背景知識,去識別不同的詞匯之間,以最終地消解這種模糊性。
機器學習是解決語言中模糊性和多樣性一個必要的工具,在過去幾年我們也看到了這個領域的發展。我們有不同分類方法來解決文本分類問題,他們依據不同的規則,使用不同的方法。
人工智能能夠幫助我們進行分類,在過去的幾年它也取得了長足的發展。這其中不僅有機器學習發展的功勞,還有其他的技術,包括計算能力的發展和儲存成本的下降,都促進了機器學習領域的發展,還有新的分類方法的誕生。
大家如果關注這個領域,就會發現現在機器學習分類還不是非常的有效。如果把這些方法比喻成一個魔盒的話,我們要了解這個魔盒中需要什么樣的工具和內容。我想強調的就是,我們不僅需要找到方法,更應該了解推理的方法,包括了解原因、假設結果和測試方法。
因為推理應該是分類之上的邏輯,讓同樣的類別在一起進行集成。我們要清楚,一個點是否能推到下一個點,這樣才能更好的解決問題、回答問題和進行優化。
自然語言處理現在有很多應用。
比如,一個律所需要獲得所有人的名字,這些人名都包含在郵件中,有不同的分析郵件的方法,我們該如何確定這些人的名單呢?再比如,一個政界人士要研究氣候變化方面的問題,他也找到了很多相關的文本,但是該如何全面的梳理,得到大事件的時間表呢?包括教學系統,是否能夠幫助我們初中學生更好的解決幾何和數學問題?比如比傳統病歷包含更多信息的電子病歷我們又該如何利用?
我們還沒有真正完全解決這些問題,還有許多其他挑戰,包括推理,適應性訓練,因為現在的模型大多不具有普適性。以及最大的挑戰是——監督。
那什么是監督?就是神經網絡的監督。我們賦予神經網絡一個任務,去模擬它,然后收集數據,設置一個模型。但現在我們發現我們的數據不夠,沒有辦法去訓練所有的模型,我們也不太清楚,什么是稱為全部的任務。那這種方法就無法升級和進行普適性的應用,它更大程度上是只是一種偶然性的訓練。
我們也發現很多的零散信號,我們如何收集這些零散的信號,進行訓練模型?傳統的文本分類,需要用很多標志性文件去訓練一個經典的模型。所以,我們一般要收集一些關鍵的數據進行標記、進行分類。
現在我們考慮的是如何不利用標記的數據,就可以進行快速地分類。但是現在我們不再需要標記數據了,因為我們有對標簽的最直接的了解。我們可以直接利用話題、文本進行標記性的重現,以實現對話題的理解。
我還有一個例子,我很喜歡喝咖啡,我想告訴一個機器人這個信息,我就要和它溝通,為它提供一個信息,我要告訴它,我需要什么樣的咖啡,讓它去了解我的喜好。
標準的機器學習的方法,就是為了提供一個有隱喻的文本和很多意義的標記,這樣做的成本非常地高昂。換句話說我們要像一個老師一樣,通過深入的溝通,為機器人提供信息。這種方法是不可以進行復制的。
現在我們在想為它提供一些非直接性的信號,去訓練這個機器人。把這樣的信息傳遞出去,再看一下機器人能做什么事情。如果它按照我的方法和指示做這個咖啡,說明我們的信息傳遞是非常清晰的,相反說明我們給的是一個不太好的例子。
因此我們現在的挑戰就是能不能依賴于這種描述語言,實現信息的傳達。我不會告訴你們怎么做,但是我覺得這樣一種方式,能夠幫助我們進行下一級的技術革命,而且能夠實現一些復雜任務的完成。
總結來看,今天的自然語言處理依然是一個具有挑戰性的領域。機器學習和推理等都是科學工程以及商業進展的核心。盡管還有許多的問題有待解決,但是現在這個領域的現狀已經能夠幫助我們帶來一定的商業成功了。