在YouTube和Twitch上播放的一系列游戲比賽中,AI玩家連續10場擊敗人類玩家。在最后一場比賽中,職業游戲玩家科明茨(Grzegorz “MaNa” Komincz)為人類奪取了一場勝利。
DeepMind公司的研究負責人大衛·西爾弗(David Silver)在比賽結束后表示:“人工智能在不同的游戲比賽中取得的成績,成為人工智能發展的重要里程碑。我希望——盡管顯然還有工作要做——未來的人們可能會回顧今天,并認識到這是人工智能系統潛在能力又邁出的重要一步。”
在電子游戲中打敗人類看起來像是人工智能發展中的一場雜耍,但這其實是一個重大的研究挑戰。像“星際爭霸2”這樣的游戲比棋類游戲(如國際象棋或圍棋)更難玩。在電子游戲中,人工智能軟件實體不能通過觀察每一個棋子的運動來計算下一步的動作,他們必須實時作出反應。
這些因素看起來并不是DeepMind人工智能游戲玩家系統(AlphaStar)的主要障礙。首先,它擊敗了職業玩家達里奧“TLO”Wünsch,然后它開始挑戰科明茨。一系列比賽最初于去年12月在DeepMind的倫敦總部舉行,但今天對科明茨的最后一場比賽提供了直播,這位職業玩家為人類帶來了一場勝利。
專業的星際爭霸評論員形容AlphaStar的表現是“非凡的”和“超人的”。
在“星際爭霸II”中,首先需要從同一張地圖的不同位置開始,隨后建立基地、訓練軍隊和入侵敵人領土。AlphaStar特別擅長所謂的“微管理”(Micromanagement),即在戰場上快速果斷地控制部隊的能力。
盡管人類玩家有時能訓練出更強大的軍隊,但AlphaZero仍能在近距離擊敗他們。在一場游戲中,AlphaStar用一個快速移動的“潛行者”(Stalker)聚集了法力。評論員凱文“鹿特丹”范德科形容它實現了“非凡的軍隊控制,這不是一般人平時所能看到的水平。”
在游戲比賽結束之后,科明茨表示:“如果我和任何人類對手比賽,他們就不會以這么高的水平對‘潛行者’進行微操控。”
這一事件與我們從其他高級人工智能游戲玩家中看到的行為相呼應。
去年,當OpenAI公司的AI玩家參加Dota 2的比賽時,他們最終被人類玩家所擊敗。不過,當時業內專家點評指出,AI軟件玩家表現出了優秀的清晰度和準確度,能夠快速無誤地做出判斷,這也是人工智能玩家的優勢所在。
專家們已經開始剖析這一次的游戲對決,并討論AlphaStar是否獲得了任何不公平的優勢。人工智能玩家(軟件實體)在某些方面表現不佳,例如,AI玩家每分鐘進行的點擊次數被限制。不過,與人類玩家不同的是,它能夠一次查看整個地圖,而不是手動導航。
DeepMind公司的研究人員說,AI玩家實際上并未獲得真正的優勢,因為它在任何時候只專注于地圖的一個部分。但是,正如游戲過程所顯示,這并沒有阻止AlphaStar同時在三個不同的區域熟練地控制部隊。評論員表示,這對人類玩家來說是不可能的。值得注意的是,當科明茨在直播的比賽中擊敗AlphaStar時,AI正在使用一個受限的相機視圖模式。
另外需要指出的是,這次和人工智能玩家對決的對手雖然是職業玩家,但并不是世界冠軍水平。參加比賽的玩家TLO還必須完成星際爭霸II中他所不熟悉的比賽。
撇開這一討論不談,專家們說,這場比賽是人工智能向前邁出的重要一步。長期參與“星際爭霸”人工智能場景研究的研究員戴夫·丘吉爾告訴英國“衛報”:“我認為人工智能游戲軟件實體所表現出的能力是一項重大成就,至少比我在人工智能研究人員中聽到的最樂觀的猜測早一年。”
然而,丘吉爾也補充說,由于DeepMind還沒有發布任何有關這項工作的研究論文,因此很難判斷出AlphaStar是否獲得了任何技術上的飛躍。丘吉爾說:“我還沒有讀過這篇博客文章,也沒有看到任何文件或技術細節來做出一個判斷。”
佐治亞理工學院人工智能副教授馬克·里德爾(Mark Riedl)說,他對游戲比賽結果并不感到驚訝,人工智能擊敗人類玩家只是“一個時間問題”。
里德爾補充說,他并不認為這場比賽表明星際爭霸II確實被人工智能玩家所征服。他表示,在過去直播的游戲中,AlphaStar被限制在窗口中,這消除了人工智能的一些優勢,“但我們看到的更大問題…是人工智能所學到的策略是脆弱的,當一個職業玩家把人工智玩家逼出舒適區時,人工智能就會崩潰。”
實際上,讓人工智能玩家在電子游戲中擊敗人類,其最終目的是提高人工智能的訓練方法,特別是創造出能夠在類似星際爭霸這樣復雜的虛擬環境中運行的人工智能系統。
為了訓練AlphaStar,DeepMind公司的研究人員使用了一種稱為強化學習的方法。AI軟件實體為了達到某些目標(如獲勝或僅僅是活著),基本上是通過反復試驗來玩這個游戲的。他們首先通過模仿人類玩家來學習,然后在游戲競技比賽中互相學習。在不同的AI軟件實體中,強者生存,弱者被拋棄。DeepMind估計,它的每一個AlphaStar軟件實體都以這種方式積累了大約200年的游戲時間,隨著游戲積累,它們玩游戲的速度也越來越快。
DeepMind清楚地知曉其開展這項工作的目標。“最重要的是,DeepMind的任務是構建一種通用的人工智能系統。”AlphaStar項目的負責人奧里爾·維尼亞爾斯(Oriol Vinyals)說,他指的是建立一個能執行人類所能完成的任何心理任務的人工智能軟件實體。“要做到這一點,重要的是要對我們的人工智能軟件實體在各種任務中的表現進行測評對比。”