“深度強化學習可以用于自動獲取一系列機器人任務的控制器,從而實現將感知輸入映射到低級別動作的策略的端到端學習。”該論文的作者解釋道。 “如果我們可以直接在現實世界中從頭開始學習運動步態,原則上我們就能獲得最適合每個機器人、甚至適合單個地形的控制器,潛在地實現更好的敏捷性、能源效率和穩健性。”
設計挑戰是雙重的。強化學習是一種使用獎勵或懲罰來驅動代替人實現目標的人工智能培訓技術,它需要大量數據,在某些情況下需要數萬個樣本才能獲得良好的結果。并且微調機器人系統的超參數 —— 即確定其結構的參數 —— 通常需要多次訓練,這可能會隨著時間的推移對腿式機器人造成傷害。
“深度強化學習已被廣??泛用于模擬中的學習運動策略,甚至將它們轉移到現實世界的機器人中,但由于模擬中的差異,這不可避免地導致性能損失,并且需要大量的手動建模。”該論文的作者指出,“在現實世界中使用這些算法已經證明具有挑戰性。”
為了找到一種方法,用研究人員的話說,“(使)一個系統在沒有模擬訓練的情況下學習運動技能成為可能,他們選擇了一種稱為“最大熵RL”的強化學習框架(RL)。最大熵RL優化學習策略以最大化預期回報和預期熵,或者正在處理的數據中的隨機性度量。在RL中,AI代理通過從策略中采樣動作并接收獎勵,不斷尋找最佳的行動路徑,也就是說,狀態和行動的軌跡。最大熵RL激勵政策更廣泛地探索;一個參數 —— 比如說,溫度 —— 確定熵對獎勵的相對重要性,從而確定其隨機性。
但這并不全是積極和有效的,至少不是一開始。因為熵和獎勵之間的權衡直接受到獎勵函數的規模的影響,而獎勵函數的規模又影響學習速率,所以通常必須針對每個環境調整縮放因子。研究人員的解決方案是自動化溫度和獎勵規模調整,部分是在兩個階段之間交替進行:數據收集階段和優化階段。
結果不言自明。在OpenAI的健身房(一個用于訓練和測試AI代理的開源模擬環境)進行的實驗中,作者的模型在四個連續運動任務(HalfCheetah、Ant、Walker和Minitaur)中實現了“幾乎相同”或比基線更好的性能。
在第二次真實世界的測試中,研究人員將他們的模型應用于四足Minitaur,這是一種帶八個執行器的機器人,一個測量馬達角度的馬達編碼器,以及一個測量方向和角速度的慣性測量單元(IMU)。
他們開發了一個管道,包括(1)計算機工作站,更新神經網絡,從Minitaur下載數據,并上傳最新策略;(2)在機器人上安裝Nvidia Jetson TX2執行上述策略,收集數據,并通過以太網將數據上傳到工作站。經過兩個小時160,000步的訓練后,通過獎勵前進速度和懲罰“大角加速度”和俯仰角的算法,他們成功地訓練Minitaur在平坦的地形上行走,越過木塊等障礙物行走,以及爬上斜坡和臺階,而這些在訓練時間內均未出現。
“據我們所知,這個實驗是深度強化學習算法的第一例,這種算法可以在沒有任何模擬或訓練的情況下,直接在現實世界中學習欠驅動的四足運動。”研究人員寫道。