這個問題可能有些寬泛,無法給出一個確切的答案。但如果你想要把接新任務,升級或者再玩一把等一系列概括起來,最簡單的解釋就是“好奇心”——只是想看看接下來會發生什么。事實證明,在指導人工智能玩電子游戲時,好奇心是一個非常有效的動力。
非營利人工智能研究公司OpenAI本周發布的一項研究解釋了一個具有好奇心的AI agent如何攻克經典的1984 Atari游戲Montezuma‘s Revenge。熟練掌握Montezuma’s Revenge算是人工智能的一大進步,但不能將其等同于打敗Go或Dota 2的里程碑。谷歌旗下的人工智能公司DeepMind2015年發布了一篇開創性論文,解釋AI如果通過深度學習在許多Atari游戲里獲得高分,擊敗強大的人類玩家,其中Montezuma’s Revenge是唯一一款得分為0的游戲,算法未能學習如何去玩這個游戲。
游戲難度高的原因在于它的操作方式與AI agent學習的方式不匹配,這也揭示出機器學習存在盲點。
要想AI agent掌握電子游戲的玩法,通常需借助強化學習的訓練方法。在這種訓練中,agent會被放入虛擬世界,并且會因為某些結果而獲得獎勵(如增加分數),或是受到懲罰(如失去一條命)。AI Agent開始隨機玩游戲,且能學會在反復試驗之后改進其策略。強化學習通常被看作是構建智能機器人的關鍵方法。
Montezuma‘s Revenge的問題在于它不能為AI agent提供定期獎勵。這是一個益智類游戲,玩家必須探索地下金字塔,躲避陷阱和敵人,同時收集解鎖門和特殊物品的鑰匙。如果你正在訓練AI agent攻克這款游戲,可以在它活著通過各個房間并收集鑰匙時給予其一定的獎勵。但是你該如何教他保存其他物品的鑰匙,并使用這些物品來克服陷阱并完成關卡呢?
答案就是:好奇心。
在OpenAI的研究中,他們的agent獲得獎勵不僅僅是因為跳過尖峰,還為了探索金字塔的新板塊。探索新板塊的好奇心是一大動力,也促成了agent在游戲中優于人類的表現,機器人在9次闖關中平均得分10000(人類平均得分4000)。OpenAI稱,在一次運行中,agent甚至通過了第一關。
OpenAI的Harrison Edwards告訴The Verge:“我們目前已經開發出一個可以探索大量房間,獲得大量獎勵,偶爾還能闖過第一關的系統。”并補充道,游戲的其他關卡跟第一關類似,游戲通關“只是時間問題。”
攻克“NOISY TV PROBLEM”
OpenAI并非第一家嘗試這種方法的實驗室,AI研究人員幾十年來一直在利用“好奇心”的概念作為誘因。他們之前也曾將此應用于Montezuma’s Revenge,但如果沒有指導人工智能從人類的例子中學習,就不會如此成功。
然而,盡管這里的一般理論已經確立,但構建特定解決方案仍然具有挑戰性。例如,基于預測的好奇心僅在學習某些類型的游戲時有用。它適用于馬里奧這類游戲,游戲過程中探索空間大,關卡設置多,且充斥著從未見過的怪物。但對于Pong這種簡單游戲,AI agent更愿意打持久戰,而不是真正擊敗他們的對手。(或許是因為贏得比賽比游戲中球的路徑更好預測。)
另一個實驗是“Noisy TV problem”,實驗中已被編程為尋找新體驗的AI agent沉迷于隨機模式,例如調諧至靜態噪音的電視。這是因為agent對“有趣”和“新”的感覺來源于他們預測未來的能力。在采取某種行動之前,他們會預測游戲之后的情況。如果他們猜對了,很可能是他們之前已經看過這個關卡了。這種機制被稱為“預測錯誤”。
但因為靜態噪聲是不可預測的,實驗中AI agent被放入迷宮中,任務是找到獎勵最高的物體。環境中還有一臺電視,電視上的頻道可由遙控器隨機轉換,因為每次換臺的結果是不可預測的、令人驚訝的,面對這樣電視(或類似不可預測的刺激),AI agent變得十分迷惑。OpenAI將這個問題與沉迷于老虎機的人類賭徒進行了比較,人們不知道接下來會發生什么,所以不舍得就此離開。
圖片3 Halcyon--HOW TEACHING AI TO BE CURIOUS HELPS MACHINES LEARN FOR THEMSELVES.gif
OpenAI的這項新研究通過改變AI預測未來的方式巧妙地回避了這個問題。準確的方法(稱為Random Network Distillation)十分復雜,Edwards和他的同事Yuri Burda將其解釋為在游戲的每個界面中設置一些隱藏信息,等著人工智能去挖掘。這個隱藏任務是隨機的,無多大意義(Edwards建議道,比方說“屏幕左上角的顏色是什么?”),但可以激勵agent繼續探索游戲,而不會讓它過分容易地受到噪音電視陷阱的影響。
值得注意的是,這個激勵因素并不需要大量的計算,這點非常重要。強化學習的方法依賴大量數據來訓練AI agent,所以訓練中的每一步都需要盡可能快速的完成。
來自Unity的軟件工程師Arthur Juliani,同時還是一位機器學習方面的專家,他表示,這正是OpenAI研究工作的亮點所在。Juliani告訴The Verge:“OpenAI使用的方法非常簡單,卻非常有效。縱觀過去應用于游戲的探索方法,復雜有余,且基本上沒有給科技圈帶來多少印象深刻的結果,相比起來,OpenAI的方法就簡單得多了。”
Juliani表示,鑒于Montezuma’s Revenge不同關卡之間的相似性,OpenAI目前完成的工作基本上等同于攻克整個游戲了。但他補充道:“事實上,他們無法確保每次都能闖過第一關,這意味著仍然存在一些挑戰。”Juliani還想知道OpenAI的方法是否適用于3D游戲,3D游戲的難度相較其他可能更大,視覺特征更加微妙,且游戲中第一人稱視角遮擋了大部分界面。
“3D游戲里,在需要探索的情景中,環境各部分之間的差異更為微妙,這種方法的實際表現可能不會太好,”Juliani說到。
好奇心
但是為什么我們首先需要具備好奇心的AI呢?具備好奇心的AI跟人類一樣,很容易沉迷于隨機模式。
最大的原因是好奇心有助于計算機進行自我學習。
如今被廣泛采用的機器學習方法大致可分為兩個陣營:第一種,機器通過瀏覽大量數據來學習,并計算出可以應用于類似問題的模式;第二種,機器被投入環境中,利用強化學習方法獲得某些成就,從而獲得獎勵,也就是用獎勵刺激的形式促使機器學習。
這兩種方法在特定任務中都是有效的,但并非完全依靠機器自身進行,無論是標記培訓數據還是為虛擬環境設計獎勵功能,都離不開大量的人工。通過為人工智能系統提供探索的內在誘因,一些工作被消除,人類無需像從前一樣花費過多精力在機器學習上,在誘因的刺激下,機器能夠自主學習。
OpenAI的Edwards和Burda表示,這種好奇心驅使的學習系統比起設計開發在現實世界中運行的計算機程序要好得多。畢竟,跟Montezuma’s Revenge一樣,實際生活中,即時獎勵往往很少,我們都需要長時間工作、學習和探索才能得到回報。好奇心能幫助我們繼續前進,或許也可以幫助計算機。