精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:新聞中心行業動態 → 正文

人工智能的想象力在哪里?微軟的這個機器人畫家告訴你答案

責任編輯:editor007 作者:石松 |來源:企業網D1Net  2018-01-19 19:55:55 本文摘自:雷鋒網

雷鋒網按:人工智能能夠實現什么?毫無疑問它可以幫助我們實現很多事情,但微軟最近開發的一項人工智能技術刷新了我們對于人工智能的認知。基于計算機識別和自然語言處理,微軟開發出一種可以根據用戶描述來繪圖的機器人,它甚至可以幫助用戶補全未必描述的細節。目前微軟已經通過官方博客公布了這一成果,雷鋒網(公眾號:雷鋒網)對這篇博客進行了不改變原意的編譯。

人工智能的想象力在哪里?微軟的這個機器人畫家告訴你答案

試想一下,你手中拿著稿紙和畫筆,被要求畫一幅關于鳥的照片,這只鳥要有黃色的身體,黑色的翅膀和短短的鳥喙。你大概會先畫出鳥的大概輪廓,之后檢查修改一下,繼續想想黃色的身體部分,然后用黃色的畫筆填充鳥的身體。接著再用黑色的畫筆完成鳥的翅膀,最終檢查一下,畫上短短的有些發亮的鳥喙。為了使之更生動形象,你或許會畫上鳥所棲息的樹干。

如今,機器人也可以如你一樣做到這一點了!

微軟研究實驗室正在開發的新型人工智能技術能夠從字幕式的文本描述中截取單個的詞語生成圖像。網站 arXiv.org 上發表的一篇研究報告稱,根據行業標準測試的結果,這項技術產生的圖像質量與之前的文本到圖像生成技術相比,提高了將近三倍。

研究人員簡單地稱之為繪圖機器人,該技術可以生成從普通的田園風光(如放牧家畜)到荒謬無意義的(如浮動的雙層巴士)所有圖像。每幅圖像都包含了文字描述中沒有提及的細節,表明該人工智能技術擁有一種人造的想象力。

“如果你用 Bing 搜索一只鳥,你會得到一張鳥的圖片。但是在這里,圖片是由計算機逐個像素地從頭開始創建的,”位于微軟在華盛頓州雷蒙德市的研究實驗室,深度學習技術中心的首席研究員和研究主管 Xiaodong He表示。“這些鳥在現實世界中可能不會存在——它們只是表明了計算機對鳥類想像力的一個方面”。

這項繪圖機器人技術完成了他和他的同事在過去五年中,探索過的計算機視覺和自然語言處理的交叉學科研究。他們從自動編寫照片字幕 —— CaptionBot ——的技術開始,然后轉向另外一種技術,回答人類對圖像提出的問題,例如對象的位置或屬性,這點對盲人特別有用。

這些研究工作需要訓練機器學習模型來識別對象,完成行為和自然語言間的交互。

“現在我們要用文字來生成圖像,”該組織的博士后研究員,論文合著者 Qiuyuan Huang 表示, “所以,這就是一個循環。”

圖像生成是一個比圖像字幕更具挑戰性的任務,團隊中的副研究員 Pengchuan Zhang 補充說,因為這個過程需要繪圖機器人想像沒有包含在標題中的細節。他說:“這意味著你需要運行人工智能的機器學習算法來想象一些圖像中的缺失部分。”

細致的圖像生成

微軟繪圖機器人的核心是一種被稱為“生成對抗網絡”(Generative Adversarial Network,GAN)的技術。網絡由兩個機器學習模型組成,一個從文本描述生成圖像,另一個稱為鑒別器,使用文本描述來判斷生成圖像的真實性。發生器試圖通過假照片騙過鑒別器,同時鑒別器進行判斷。二者一同作用,將發生器不斷完美。

微軟的繪圖機器人在包含對應圖像和標題的數據集上進行了訓練,這些允許模型學習如何將單詞與這些單詞的可視化圖片表示相匹配。例如, GAN 學會在標題說鳥的時候生成鳥的圖像,并且同樣學習鳥的圖像應該是什么樣的。他說:

這是我們相信機器可以學習的根本原因。

當從簡單的文字描述(例如藍鳥或常青樹)產生圖像時, GAN 可以很好地工作,但在更復雜的文本描述中效果不佳,例如具有綠色的冠,黃色的翅膀和紅色腹部的鳥。這是因為整個句子作為發生器的單一輸入。其中詳細的信息發生了丟失。因此,生成的圖像是一種模糊的帶綠色和微黃色的鳥,而不是與描述中緊密匹配。

在人類的繪畫過程中,我們反復提到文本,并密切關注描述我們正在繪制的圖像區域和單詞描述。為了捕捉這種人的特質,研究人員創建了他們所謂的 attentional GAN或 AttnGAN,它們在數學上模擬了人類關注的概念。它是通過將輸入文本分解為單個單詞并將這些單詞與圖像的特定區域相匹配來實現的。

“注意是一個人的概念,我們用數學來進行計算。”他解釋說。

該模型還從訓練數據中學習到人類稱為常識的東西,并且利用這個學習的概念來填充留在想象中圖像的細節。例如,由于訓練數據中的許多鳥類圖像顯示了坐在樹枝上的鳥, AttnGAN 通常使鳥棲息在樹枝上,除非文本另有規定。

“從數據來看,機器學習算法學習鳥站在樹枝上應該屬于這類常識,”Zhang 說。作為一項測試,該團隊為漫畫圖像提供了繪圖機器人所需的字幕,例如“一輛紅色的雙層巴士漂浮在湖面上”。它生成了一個模糊的,飄逸的雙層巴士圖像,類似于兩層甲板船或雙層甲板船,漂浮在群山環繞的湖上。該圖像表明,關于船只能漂浮在湖泊上和公共汽車的文本描述之間,機器人內部有一個爭斗。

“我們可以控制我們描述的東西,看看機器如何作出反應。” 他解釋說,“我們可以干涉和測試機器到底學到了什么東西。這臺機器已經具有一些背景常識,但它仍然可以按照你所要求的運行,有時候,這似乎有點荒謬可笑。”

實際應用方面

這項文本到圖像的生成技術可以運用到實際應用中,可以作為畫家和室內設計師的草圖助手,或作為語音控制的照片美化工具。伴隨更強大的計算能力,他想象這項技術可以生成基于電影劇本的動畫電影,為電影制作人減少一些需要人工的成本。

但就目前來看,這項技術還不完善。對圖像進行仔細檢查后,幾乎總能發現瑕疵,例如藍鳥喙,而不是黑色的,水果和基因突變的香蕉長在一起。這些缺陷清楚地表明,是電腦而不是人類創造了這些圖像。盡管如此, AttnGAN 圖像的質量比以前最好的 GAN 圖像質量提高了近 3 倍,并且這是通往增強人類自身能力的類人工智能道路上的一個里程碑 。

“因為人工智能和人類生活在同一個世界,他們之間必須找到一種互相交流的方式。”他解釋道,“語言和視覺是人類與機器交流的兩個最重要的途徑。”

除了微軟的 Xiaodong He, Pengchuan Zhang and Qiuyuan Huang,合作者還包括前微軟實習生利理海大學的Tao Xu和杜克大學的 Zhe Gan,羅格斯大學的 Han Zhang,理海大學的 Xiaolei Huang。

關鍵字:微軟論文合著放牧家畜

本文摘自:雷鋒網

x 人工智能的想象力在哪里?微軟的這個機器人畫家告訴你答案 掃一掃
分享本文到朋友圈
當前位置:新聞中心行業動態 → 正文

人工智能的想象力在哪里?微軟的這個機器人畫家告訴你答案

責任編輯:editor007 作者:石松 |來源:企業網D1Net  2018-01-19 19:55:55 本文摘自:雷鋒網

雷鋒網按:人工智能能夠實現什么?毫無疑問它可以幫助我們實現很多事情,但微軟最近開發的一項人工智能技術刷新了我們對于人工智能的認知。基于計算機識別和自然語言處理,微軟開發出一種可以根據用戶描述來繪圖的機器人,它甚至可以幫助用戶補全未必描述的細節。目前微軟已經通過官方博客公布了這一成果,雷鋒網(公眾號:雷鋒網)對這篇博客進行了不改變原意的編譯。

人工智能的想象力在哪里?微軟的這個機器人畫家告訴你答案

試想一下,你手中拿著稿紙和畫筆,被要求畫一幅關于鳥的照片,這只鳥要有黃色的身體,黑色的翅膀和短短的鳥喙。你大概會先畫出鳥的大概輪廓,之后檢查修改一下,繼續想想黃色的身體部分,然后用黃色的畫筆填充鳥的身體。接著再用黑色的畫筆完成鳥的翅膀,最終檢查一下,畫上短短的有些發亮的鳥喙。為了使之更生動形象,你或許會畫上鳥所棲息的樹干。

如今,機器人也可以如你一樣做到這一點了!

微軟研究實驗室正在開發的新型人工智能技術能夠從字幕式的文本描述中截取單個的詞語生成圖像。網站 arXiv.org 上發表的一篇研究報告稱,根據行業標準測試的結果,這項技術產生的圖像質量與之前的文本到圖像生成技術相比,提高了將近三倍。

研究人員簡單地稱之為繪圖機器人,該技術可以生成從普通的田園風光(如放牧家畜)到荒謬無意義的(如浮動的雙層巴士)所有圖像。每幅圖像都包含了文字描述中沒有提及的細節,表明該人工智能技術擁有一種人造的想象力。

“如果你用 Bing 搜索一只鳥,你會得到一張鳥的圖片。但是在這里,圖片是由計算機逐個像素地從頭開始創建的,”位于微軟在華盛頓州雷蒙德市的研究實驗室,深度學習技術中心的首席研究員和研究主管 Xiaodong He表示。“這些鳥在現實世界中可能不會存在——它們只是表明了計算機對鳥類想像力的一個方面”。

這項繪圖機器人技術完成了他和他的同事在過去五年中,探索過的計算機視覺和自然語言處理的交叉學科研究。他們從自動編寫照片字幕 —— CaptionBot ——的技術開始,然后轉向另外一種技術,回答人類對圖像提出的問題,例如對象的位置或屬性,這點對盲人特別有用。

這些研究工作需要訓練機器學習模型來識別對象,完成行為和自然語言間的交互。

“現在我們要用文字來生成圖像,”該組織的博士后研究員,論文合著者 Qiuyuan Huang 表示, “所以,這就是一個循環。”

圖像生成是一個比圖像字幕更具挑戰性的任務,團隊中的副研究員 Pengchuan Zhang 補充說,因為這個過程需要繪圖機器人想像沒有包含在標題中的細節。他說:“這意味著你需要運行人工智能的機器學習算法來想象一些圖像中的缺失部分。”

細致的圖像生成

微軟繪圖機器人的核心是一種被稱為“生成對抗網絡”(Generative Adversarial Network,GAN)的技術。網絡由兩個機器學習模型組成,一個從文本描述生成圖像,另一個稱為鑒別器,使用文本描述來判斷生成圖像的真實性。發生器試圖通過假照片騙過鑒別器,同時鑒別器進行判斷。二者一同作用,將發生器不斷完美。

微軟的繪圖機器人在包含對應圖像和標題的數據集上進行了訓練,這些允許模型學習如何將單詞與這些單詞的可視化圖片表示相匹配。例如, GAN 學會在標題說鳥的時候生成鳥的圖像,并且同樣學習鳥的圖像應該是什么樣的。他說:

這是我們相信機器可以學習的根本原因。

當從簡單的文字描述(例如藍鳥或常青樹)產生圖像時, GAN 可以很好地工作,但在更復雜的文本描述中效果不佳,例如具有綠色的冠,黃色的翅膀和紅色腹部的鳥。這是因為整個句子作為發生器的單一輸入。其中詳細的信息發生了丟失。因此,生成的圖像是一種模糊的帶綠色和微黃色的鳥,而不是與描述中緊密匹配。

在人類的繪畫過程中,我們反復提到文本,并密切關注描述我們正在繪制的圖像區域和單詞描述。為了捕捉這種人的特質,研究人員創建了他們所謂的 attentional GAN或 AttnGAN,它們在數學上模擬了人類關注的概念。它是通過將輸入文本分解為單個單詞并將這些單詞與圖像的特定區域相匹配來實現的。

“注意是一個人的概念,我們用數學來進行計算。”他解釋說。

該模型還從訓練數據中學習到人類稱為常識的東西,并且利用這個學習的概念來填充留在想象中圖像的細節。例如,由于訓練數據中的許多鳥類圖像顯示了坐在樹枝上的鳥, AttnGAN 通常使鳥棲息在樹枝上,除非文本另有規定。

“從數據來看,機器學習算法學習鳥站在樹枝上應該屬于這類常識,”Zhang 說。作為一項測試,該團隊為漫畫圖像提供了繪圖機器人所需的字幕,例如“一輛紅色的雙層巴士漂浮在湖面上”。它生成了一個模糊的,飄逸的雙層巴士圖像,類似于兩層甲板船或雙層甲板船,漂浮在群山環繞的湖上。該圖像表明,關于船只能漂浮在湖泊上和公共汽車的文本描述之間,機器人內部有一個爭斗。

“我們可以控制我們描述的東西,看看機器如何作出反應。” 他解釋說,“我們可以干涉和測試機器到底學到了什么東西。這臺機器已經具有一些背景常識,但它仍然可以按照你所要求的運行,有時候,這似乎有點荒謬可笑。”

實際應用方面

這項文本到圖像的生成技術可以運用到實際應用中,可以作為畫家和室內設計師的草圖助手,或作為語音控制的照片美化工具。伴隨更強大的計算能力,他想象這項技術可以生成基于電影劇本的動畫電影,為電影制作人減少一些需要人工的成本。

但就目前來看,這項技術還不完善。對圖像進行仔細檢查后,幾乎總能發現瑕疵,例如藍鳥喙,而不是黑色的,水果和基因突變的香蕉長在一起。這些缺陷清楚地表明,是電腦而不是人類創造了這些圖像。盡管如此, AttnGAN 圖像的質量比以前最好的 GAN 圖像質量提高了近 3 倍,并且這是通往增強人類自身能力的類人工智能道路上的一個里程碑 。

“因為人工智能和人類生活在同一個世界,他們之間必須找到一種互相交流的方式。”他解釋道,“語言和視覺是人類與機器交流的兩個最重要的途徑。”

除了微軟的 Xiaodong He, Pengchuan Zhang and Qiuyuan Huang,合作者還包括前微軟實習生利理海大學的Tao Xu和杜克大學的 Zhe Gan,羅格斯大學的 Han Zhang,理海大學的 Xiaolei Huang。

關鍵字:微軟論文合著放牧家畜

本文摘自:雷鋒網

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 洛浦县| 皮山县| 个旧市| 荆州市| 政和县| 罗江县| 新郑市| 乐清市| 淮滨县| 泰顺县| 晋州市| 河池市| 嵊泗县| 寿阳县| 囊谦县| 凤阳县| 钟山县| 嘉义县| 青阳县| 安顺市| 长武县| 昌黎县| 沅江市| 彝良县| 金川县| 巩留县| 三原县| 茶陵县| 永吉县| 贺兰县| 常德市| 盖州市| 南涧| 揭阳市| 荣成市| 历史| 甘南县| 南通市| 桐城市| 林西县| 汕头市|