精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:人工智能行業動態 → 正文

自然語言處理頂級專家Dan Roth:AI的崛起

責任編輯:editor005 作者:薛芳 |來源:企業網D1Net  2018-01-28 17:13:28 本文摘自:騰訊科技

2018年1月28日上午,《麻省理工科技評論》新興科技峰會EmTech China于北京國貿大酒店正式召開。Dan Roth 自然語言處理頂級專家,賓夕法尼亞計算機與大學教授發表了演講——《利用非數據化結構 AI的崛起》。

以下附上演講的文字記錄:

當我們連接wifi的時候,或者當你在下載的時候,會出現一個提示框詢問你是否接受用戶協議。這是一份很長的文本,那么你要接受嗎?要認同嗎?可能你會回答,對,我要接受,哪怕這個時候,可能你還沒有讀完這份長長的文本。

但是這個文本中會涉及很多問題,比如,它會如何利用我的個人信息?不會侵害我的隱私?我們需要了解這些知識,這個文本能不能讓用戶清楚了解這些相關的保密內容呢?

我們現在還沒有一種穩定的方法可以去了解整個文本的內容,這就是我們現在遇到的問題。這個問題不僅是一個科學上的問題。這些文本關乎我們個人信息的安全性,這是每個人都要面對的問題。我們接觸到的絕大多數數據是非結構性的。

從科學領域,再到醫學、教學、商業、互聯網等等,包括我們的郵件都是非結構性數據。這背后的挑戰就是,我們如何去了解這些數據的結構,我們如何建立一個系統,可以去分析、利用它們,了解其背后的意義。

這就是自然語言處理領域近期,尤其是近幾年的一個重要任務。今天,我來給家解釋一下,為什么非結構性的數據處理這么難?我們要采取什么樣的措施?

我們從一個簡單的故事開始。這是美國二年級學生的一道閱讀測試題,有三個名字:Kris Robin、Kiris和Ms. Robin,大家覺得他們是同一個人的名字嗎?我想大多數人都覺得不是。

為什么不是呢?因為通過閱讀理解,大家會覺得其中有一個可能是父親。雖然這篇文章中沒有明確指出這一點,但是大家可以推斷出來。這樣一道題,有人做對,有人做錯,有人可能做的很快,有人則可能會慢一點。

那么我們如何幫助計算機快速地做出選擇呢?其實,這個故事中是有很多陷阱的,有的人會被誤導。

文章中往往有很多的邏輯詞,有很多時間節點,比如說三年前五年前,還有一些定性和定量的詞語,讓我們可以分析和梳理人物之間的關系。哪怕是一個很簡單的問題,我們也需要通過邏輯來梳理。

對計算機而言,這是一個比較復雜的問題。為什么呢?因為這背后有兩層邏輯。表層語言層和底層意義層。

語言層具有模糊性,因此可能會產生歧義,所以我們需要去了解它的背景,推測它的言外之意來消除這樣的歧義。除此之外,語言層還具有多樣性。我們想要表達的每一點,都可以通過不同的方式表達出來。這兩個特點就使得語意理解非常困難。

再給大家舉一個例子,這里有三篇文本,都提到了芝加哥。我來自芝加哥。我這么說,它可能沒有別的意思。但如果我提到芝加哥樂隊,或者芝加哥的足球隊,或者提到與它相關的專輯。

傳統的編程能力暫時沒辦法幫助我們解決語言的模糊性問題。所以我們就要利用最新的機器學習去減少文本中的模糊性,去連接語言中的邏輯,去解讀背景知識,去識別不同的詞匯之間,以最終地消解這種模糊性。

機器學習是解決語言中模糊性和多樣性一個必要的工具,在過去幾年我們也看到了這個領域的發展。我們有不同分類方法來解決文本分類問題,他們依據不同的規則,使用不同的方法。

人工智能能夠幫助我們進行分類,在過去的幾年它也取得了長足的發展。這其中不僅有機器學習發展的功勞,還有其他的技術,包括計算能力的發展和儲存成本的下降,都促進了機器學習領域的發展,還有新的分類方法的誕生。

大家如果關注這個領域,就會發現現在機器學習分類還不是非常的有效。如果把這些方法比喻成一個魔盒的話,我們要了解這個魔盒中需要什么樣的工具和內容。我想強調的就是,我們不僅需要找到方法,更應該了解推理的方法,包括了解原因、假設結果和測試方法。

因為推理應該是分類之上的邏輯,讓同樣的類別在一起進行集成。我們要清楚,一個點是否能推到下一個點,這樣才能更好的解決問題、回答問題和進行優化。

自然語言處理現在有很多應用。

比如,一個律所需要獲得所有人的名字,這些人名都包含在郵件中,有不同的分析郵件的方法,我們該如何確定這些人的名單呢?再比如,一個政界人士要研究氣候變化方面的問題,他也找到了很多相關的文本,但是該如何全面的梳理,得到大事件的時間表呢?包括教學系統,是否能夠幫助我們初中學生更好的解決幾何和數學問題?比如比傳統病歷包含更多信息的電子病歷我們又該如何利用?

我們還沒有真正完全解決這些問題,還有許多其他挑戰,包括推理,適應性訓練,因為現在的模型大多不具有普適性。以及最大的挑戰是——監督。

那什么是監督?就是神經網絡的監督。我們賦予神經網絡一個任務,去模擬它,然后收集數據,設置一個模型。但現在我們發現我們的數據不夠,沒有辦法去訓練所有的模型,我們也不太清楚,什么是稱為全部的任務。那這種方法就無法升級和進行普適性的應用,它更大程度上是只是一種偶然性的訓練。

我們也發現很多的零散信號,我們如何收集這些零散的信號,進行訓練模型?傳統的文本分類,需要用很多標志性文件去訓練一個經典的模型。所以,我們一般要收集一些關鍵的數據進行標記、進行分類。

現在我們考慮的是如何不利用標記的數據,就可以進行快速地分類。但是現在我們不再需要標記數據了,因為我們有對標簽的最直接的了解。我們可以直接利用話題、文本進行標記性的重現,以實現對話題的理解。

我還有一個例子,我很喜歡喝咖啡,我想告訴一個機器人這個信息,我就要和它溝通,為它提供一個信息,我要告訴它,我需要什么樣的咖啡,讓它去了解我的喜好。

標準的機器學習的方法,就是為了提供一個有隱喻的文本和很多意義的標記,這樣做的成本非常地高昂。換句話說我們要像一個老師一樣,通過深入的溝通,為機器人提供信息。這種方法是不可以進行復制的。

現在我們在想為它提供一些非直接性的信號,去訓練這個機器人。把這樣的信息傳遞出去,再看一下機器人能做什么事情。如果它按照我的方法和指示做這個咖啡,說明我們的信息傳遞是非常清晰的,相反說明我們給的是一個不太好的例子。

因此我們現在的挑戰就是能不能依賴于這種描述語言,實現信息的傳達。我不會告訴你們怎么做,但是我覺得這樣一種方式,能夠幫助我們進行下一級的技術革命,而且能夠實現一些復雜任務的完成。

總結來看,今天的自然語言處理依然是一個具有挑戰性的領域。機器學習和推理等都是科學工程以及商業進展的核心。盡管還有許多的問題有待解決,但是現在這個領域的現狀已經能夠幫助我們帶來一定的商業成功了。

關鍵字:一線自然語言處理文本分類

本文摘自:騰訊科技

x 自然語言處理頂級專家Dan Roth:AI的崛起 掃一掃
分享本文到朋友圈
當前位置:人工智能行業動態 → 正文

自然語言處理頂級專家Dan Roth:AI的崛起

責任編輯:editor005 作者:薛芳 |來源:企業網D1Net  2018-01-28 17:13:28 本文摘自:騰訊科技

2018年1月28日上午,《麻省理工科技評論》新興科技峰會EmTech China于北京國貿大酒店正式召開。Dan Roth 自然語言處理頂級專家,賓夕法尼亞計算機與大學教授發表了演講——《利用非數據化結構 AI的崛起》。

以下附上演講的文字記錄:

當我們連接wifi的時候,或者當你在下載的時候,會出現一個提示框詢問你是否接受用戶協議。這是一份很長的文本,那么你要接受嗎?要認同嗎?可能你會回答,對,我要接受,哪怕這個時候,可能你還沒有讀完這份長長的文本。

但是這個文本中會涉及很多問題,比如,它會如何利用我的個人信息?不會侵害我的隱私?我們需要了解這些知識,這個文本能不能讓用戶清楚了解這些相關的保密內容呢?

我們現在還沒有一種穩定的方法可以去了解整個文本的內容,這就是我們現在遇到的問題。這個問題不僅是一個科學上的問題。這些文本關乎我們個人信息的安全性,這是每個人都要面對的問題。我們接觸到的絕大多數數據是非結構性的。

從科學領域,再到醫學、教學、商業、互聯網等等,包括我們的郵件都是非結構性數據。這背后的挑戰就是,我們如何去了解這些數據的結構,我們如何建立一個系統,可以去分析、利用它們,了解其背后的意義。

這就是自然語言處理領域近期,尤其是近幾年的一個重要任務。今天,我來給家解釋一下,為什么非結構性的數據處理這么難?我們要采取什么樣的措施?

我們從一個簡單的故事開始。這是美國二年級學生的一道閱讀測試題,有三個名字:Kris Robin、Kiris和Ms. Robin,大家覺得他們是同一個人的名字嗎?我想大多數人都覺得不是。

為什么不是呢?因為通過閱讀理解,大家會覺得其中有一個可能是父親。雖然這篇文章中沒有明確指出這一點,但是大家可以推斷出來。這樣一道題,有人做對,有人做錯,有人可能做的很快,有人則可能會慢一點。

那么我們如何幫助計算機快速地做出選擇呢?其實,這個故事中是有很多陷阱的,有的人會被誤導。

文章中往往有很多的邏輯詞,有很多時間節點,比如說三年前五年前,還有一些定性和定量的詞語,讓我們可以分析和梳理人物之間的關系。哪怕是一個很簡單的問題,我們也需要通過邏輯來梳理。

對計算機而言,這是一個比較復雜的問題。為什么呢?因為這背后有兩層邏輯。表層語言層和底層意義層。

語言層具有模糊性,因此可能會產生歧義,所以我們需要去了解它的背景,推測它的言外之意來消除這樣的歧義。除此之外,語言層還具有多樣性。我們想要表達的每一點,都可以通過不同的方式表達出來。這兩個特點就使得語意理解非常困難。

再給大家舉一個例子,這里有三篇文本,都提到了芝加哥。我來自芝加哥。我這么說,它可能沒有別的意思。但如果我提到芝加哥樂隊,或者芝加哥的足球隊,或者提到與它相關的專輯。

傳統的編程能力暫時沒辦法幫助我們解決語言的模糊性問題。所以我們就要利用最新的機器學習去減少文本中的模糊性,去連接語言中的邏輯,去解讀背景知識,去識別不同的詞匯之間,以最終地消解這種模糊性。

機器學習是解決語言中模糊性和多樣性一個必要的工具,在過去幾年我們也看到了這個領域的發展。我們有不同分類方法來解決文本分類問題,他們依據不同的規則,使用不同的方法。

人工智能能夠幫助我們進行分類,在過去的幾年它也取得了長足的發展。這其中不僅有機器學習發展的功勞,還有其他的技術,包括計算能力的發展和儲存成本的下降,都促進了機器學習領域的發展,還有新的分類方法的誕生。

大家如果關注這個領域,就會發現現在機器學習分類還不是非常的有效。如果把這些方法比喻成一個魔盒的話,我們要了解這個魔盒中需要什么樣的工具和內容。我想強調的就是,我們不僅需要找到方法,更應該了解推理的方法,包括了解原因、假設結果和測試方法。

因為推理應該是分類之上的邏輯,讓同樣的類別在一起進行集成。我們要清楚,一個點是否能推到下一個點,這樣才能更好的解決問題、回答問題和進行優化。

自然語言處理現在有很多應用。

比如,一個律所需要獲得所有人的名字,這些人名都包含在郵件中,有不同的分析郵件的方法,我們該如何確定這些人的名單呢?再比如,一個政界人士要研究氣候變化方面的問題,他也找到了很多相關的文本,但是該如何全面的梳理,得到大事件的時間表呢?包括教學系統,是否能夠幫助我們初中學生更好的解決幾何和數學問題?比如比傳統病歷包含更多信息的電子病歷我們又該如何利用?

我們還沒有真正完全解決這些問題,還有許多其他挑戰,包括推理,適應性訓練,因為現在的模型大多不具有普適性。以及最大的挑戰是——監督。

那什么是監督?就是神經網絡的監督。我們賦予神經網絡一個任務,去模擬它,然后收集數據,設置一個模型。但現在我們發現我們的數據不夠,沒有辦法去訓練所有的模型,我們也不太清楚,什么是稱為全部的任務。那這種方法就無法升級和進行普適性的應用,它更大程度上是只是一種偶然性的訓練。

我們也發現很多的零散信號,我們如何收集這些零散的信號,進行訓練模型?傳統的文本分類,需要用很多標志性文件去訓練一個經典的模型。所以,我們一般要收集一些關鍵的數據進行標記、進行分類。

現在我們考慮的是如何不利用標記的數據,就可以進行快速地分類。但是現在我們不再需要標記數據了,因為我們有對標簽的最直接的了解。我們可以直接利用話題、文本進行標記性的重現,以實現對話題的理解。

我還有一個例子,我很喜歡喝咖啡,我想告訴一個機器人這個信息,我就要和它溝通,為它提供一個信息,我要告訴它,我需要什么樣的咖啡,讓它去了解我的喜好。

標準的機器學習的方法,就是為了提供一個有隱喻的文本和很多意義的標記,這樣做的成本非常地高昂。換句話說我們要像一個老師一樣,通過深入的溝通,為機器人提供信息。這種方法是不可以進行復制的。

現在我們在想為它提供一些非直接性的信號,去訓練這個機器人。把這樣的信息傳遞出去,再看一下機器人能做什么事情。如果它按照我的方法和指示做這個咖啡,說明我們的信息傳遞是非常清晰的,相反說明我們給的是一個不太好的例子。

因此我們現在的挑戰就是能不能依賴于這種描述語言,實現信息的傳達。我不會告訴你們怎么做,但是我覺得這樣一種方式,能夠幫助我們進行下一級的技術革命,而且能夠實現一些復雜任務的完成。

總結來看,今天的自然語言處理依然是一個具有挑戰性的領域。機器學習和推理等都是科學工程以及商業進展的核心。盡管還有許多的問題有待解決,但是現在這個領域的現狀已經能夠幫助我們帶來一定的商業成功了。

關鍵字:一線自然語言處理文本分類

本文摘自:騰訊科技

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 乐业县| 安陆市| 九龙县| 宁武县| 闵行区| 阿拉善左旗| 炎陵县| 苍溪县| 教育| 岚皋县| 台江县| 龙口市| 石河子市| 论坛| 谢通门县| 泰和县| 康乐县| 瑞安市| 雅安市| 富蕴县| 通河县| 崇义县| 灵川县| 禄劝| 正定县| 肇东市| 临安市| 安吉县| 张北县| 都安| 永德县| 大渡口区| 社旗县| 密山市| 共和县| 漳平市| 大悟县| 宜城市| 仁化县| 定安县| 隆安县|