強(qiáng)化學(xué)習(xí)非常適合實(shí)現(xiàn)自主決策,相比之下監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)技術(shù)則無(wú)法獨(dú)立完成此項(xiàng)工作。強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域長(zhǎng)久以來(lái)一直扮演著小眾性角色。然而,過(guò)去幾年以來(lái),強(qiáng)化學(xué)習(xí)正越來(lái)越多地在各類AI項(xiàng)目當(dāng)中發(fā)揮令人矚目的作用。其最突出的應(yīng)用平臺(tái)正是在計(jì)算代理的環(huán)境背景性決策場(chǎng)景當(dāng)中,負(fù)責(zé)判斷最佳行動(dòng)。
憑借著試錯(cuò)法來(lái)最大程度提升算法報(bào)酬函數(shù),強(qiáng)化學(xué)習(xí)得以在IT運(yùn)營(yíng)管理、能源、醫(yī)療衛(wèi)生、同類型、金融、交通以及貿(mào)易等領(lǐng)域構(gòu)建起大量自適應(yīng)性控制與多代理自動(dòng)化應(yīng)用。其可負(fù)責(zé)對(duì)傳統(tǒng)重點(diǎn)領(lǐng)域(機(jī)器人、游戲以及模擬)的AI方案進(jìn)行訓(xùn)練,并有能力在邊緣分析、自然語(yǔ)言處理、機(jī)器翻譯、計(jì)算機(jī)視覺以及數(shù)字化助手方面帶來(lái)新一代AI解決方案。
強(qiáng)化學(xué)習(xí)亦成為物聯(lián)網(wǎng)自主邊緣應(yīng)用發(fā)展的前提性基礎(chǔ)。在工業(yè)、交通運(yùn)輸、醫(yī)療衛(wèi)生以及消費(fèi)者應(yīng)用等方面,大部分邊緣應(yīng)用的開發(fā)工作皆需要構(gòu)建AI驅(qū)動(dòng)型機(jī)器人,從而在動(dòng)態(tài)環(huán)境之下根據(jù)不同情境信息以自主方式完成操作。
強(qiáng)化學(xué)習(xí)的工作原理
在這樣的應(yīng)用領(lǐng)域當(dāng)中,邊緣裝置當(dāng)中的AI大腦必須依賴于強(qiáng)化學(xué)習(xí)技術(shù); 更具體地講,其必須有能力在缺少預(yù)置“基于真實(shí)”的訓(xùn)練數(shù)據(jù)集的前提下,最大程度積累報(bào)酬函數(shù)——例如根據(jù)規(guī)范當(dāng)中包含的一組標(biāo)準(zhǔn)找到問(wèn)題解決方法。這種作法與其它類型的人工智能學(xué)習(xí)方式——例如監(jiān)督學(xué)習(xí)(立足真實(shí)數(shù)據(jù)最大程度降低算法丟失函數(shù))以及無(wú)監(jiān)督學(xué)習(xí)(立足各數(shù)據(jù)點(diǎn)最大程度降低距離函數(shù))——正好相反。
然而,AI學(xué)習(xí)方法之間并不一定必須彼此孤立。AI發(fā)展趨勢(shì)當(dāng)中最值得關(guān)注的一點(diǎn)在于,強(qiáng)化學(xué)習(xí)正在各類更為先進(jìn)的應(yīng)用當(dāng)中與監(jiān)督及無(wú)監(jiān)督學(xué)習(xí)相融合。AI開發(fā)者們努力將這些方法整合至應(yīng)用程序當(dāng)中,旨在使其實(shí)現(xiàn)單一學(xué)習(xí)方法也不足以達(dá)到的新高度。
舉例來(lái)說(shuō),在不具備標(biāo)記訓(xùn)練數(shù)據(jù)的情況下,監(jiān)督學(xué)習(xí)本身無(wú)法起效——這一點(diǎn)在自動(dòng)駕駛應(yīng)用當(dāng)中體現(xiàn)得尤為顯著。由于每個(gè)瞬時(shí)環(huán)境情況基本上獨(dú)立存在且未經(jīng)預(yù)先標(biāo)記,學(xué)習(xí)方法必須自行找到解決辦法。同樣的,無(wú)監(jiān)督學(xué)習(xí)(利用聚類分析來(lái)檢測(cè)傳感器源以及其它復(fù)雜未標(biāo)記數(shù)據(jù)中的模式)也無(wú)法在現(xiàn)實(shí)世界當(dāng)中的決策場(chǎng)景內(nèi),準(zhǔn)確識(shí)別智能端點(diǎn)并采取最佳操作。
深度強(qiáng)化學(xué)習(xí)是什么
接下來(lái)是深度強(qiáng)化學(xué)習(xí),這種領(lǐng)先技術(shù)當(dāng)中的自主代理利用強(qiáng)化學(xué)習(xí)的試錯(cuò)算法與累加報(bào)酬函數(shù)以加速神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)。這些設(shè)計(jì)能夠極大支持各類依賴于監(jiān)督與/或無(wú)監(jiān)督學(xué)習(xí)的AI應(yīng)用程序。
深度強(qiáng)化學(xué)習(xí)已經(jīng)成為AI開發(fā)以及訓(xùn)練管道當(dāng)中的核心關(guān)注區(qū)域。其利用強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)代理以快速探索各類架構(gòu)、節(jié)點(diǎn)類型、連接、超參數(shù)設(shè)置以及深度學(xué)習(xí)、機(jī)器學(xué)習(xí)乃至其它AI模型,并對(duì)這些供設(shè)計(jì)人員使用的選項(xiàng)進(jìn)行相關(guān)效能權(quán)衡。
舉例來(lái)說(shuō),研究人員可利用深度強(qiáng)化學(xué)習(xí)從無(wú)數(shù)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱CNN)架構(gòu)當(dāng)中快速確定最適合當(dāng)前特征工程、計(jì)算機(jī)視覺以及圖像分類任務(wù)的選項(xiàng)。由深度強(qiáng)化學(xué)習(xí)提供的結(jié)果可供AI工具用于自動(dòng)生成最優(yōu)CNN,并配合TensorFlow、MXNet或者PyTorch等深度學(xué)習(xí)開發(fā)工具完成具體任務(wù)。
在這方面,強(qiáng)化學(xué)習(xí)開發(fā)與訓(xùn)練開放框架的持續(xù)涌現(xiàn)無(wú)疑令人振奮。若您希望深入了解強(qiáng)化學(xué)習(xí),那么以下強(qiáng)化學(xué)習(xí)框架無(wú)疑值得關(guān)注——通過(guò)運(yùn)用這些框架并對(duì)其加以擴(kuò)展,您將能夠?qū)⑵渑cTensorFlow以及其它得到廣泛應(yīng)用的深度學(xué)習(xí)與機(jī)器學(xué)習(xí)建模工具進(jìn)行對(duì)接:
強(qiáng)化學(xué)習(xí)框架
具體作用以及獲取方式
TensorFlow Agents:TensorFlow Agents 提供多種工具,可通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)各類智能應(yīng)用程序的構(gòu)建與訓(xùn)練。作為TensorFlow項(xiàng)目的擴(kuò)展方案,這套框架能夠?qū)poenAI Gym接口擴(kuò)展至多個(gè)并行環(huán)境,并允許各代理立足TensorFlow之內(nèi)實(shí)現(xiàn)以執(zhí)行批量計(jì)算。其面向OpoenAI Gy環(huán)境的批量化接口可與TensorFlow實(shí)現(xiàn)全面集成,從而高效執(zhí)行各類算法。該框架還結(jié)合有BatchPPO,一套經(jīng)過(guò)優(yōu)化的近端策略優(yōu)化算法實(shí)現(xiàn)方案。其核心組件包括一個(gè)環(huán)境打包器,用于在外部過(guò)程中構(gòu)建OpenAI Gym環(huán)境; 一套批量集成,用于實(shí)現(xiàn)TensorFlow圖步并以強(qiáng)化學(xué)習(xí)運(yùn)算的方式重置函數(shù); 外加用于將TensorFlow圖形批處理流程與強(qiáng)化學(xué)習(xí)算法納入訓(xùn)練特內(nèi)單一卻步的組件。
Ray RLLib:RLLib 提供一套基于任務(wù)的靈活編程模式,可用于構(gòu)建基于代理且面向多種應(yīng)用場(chǎng)景的強(qiáng)化學(xué)習(xí)應(yīng)用程序。RLLib由伯克利大學(xué)開發(fā),目前已經(jīng)迎來(lái)版本2,其立足Ray實(shí)現(xiàn)運(yùn)行。Ray是一套靈活且高性能的分布式執(zhí)行框架。值得一提的是,RLLib開發(fā)者團(tuán)隊(duì)中的一位成員曾經(jīng)擔(dān)任Apache Spark的主要締造者職務(wù)。
RLLib 可立足TensorFlow與PyTorch框架之內(nèi)起效,能夠?qū)崿F(xiàn)不同算法間的模型共享,并可與Ray Tune超參數(shù)調(diào)整工具進(jìn)行集成。該框架結(jié)合有一套可組合且可擴(kuò)展的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)組件庫(kù)。各個(gè)RLLib組件能夠在分布式應(yīng)用程序當(dāng)中實(shí)現(xiàn)并行化、擴(kuò)展、組合與復(fù)用。
RLLib當(dāng)中包含三種強(qiáng)化學(xué)習(xí)算法——近端策略優(yōu)化(簡(jiǎn)稱PPO)、異步優(yōu)勢(shì)Actor-Critic(簡(jiǎn)稱A3C)以及Deep Q Networks(簡(jiǎn)稱DQN),三者皆可運(yùn)行在任意OpenAI Gym Markov決策流程當(dāng)中。其還為各類新算法的開發(fā)工作提供可擴(kuò)展原語(yǔ),用于將RLLib應(yīng)用于新問(wèn)題的Python API、一套代理超參數(shù)設(shè)置庫(kù)以及多種可插拔分布式強(qiáng)化學(xué)習(xí)執(zhí)行策略。其亦支持由用戶創(chuàng)建自定義強(qiáng)化學(xué)習(xí)算法。
Roboschool:Roboschool 提供開源軟件以通過(guò)強(qiáng)化學(xué)習(xí)構(gòu)建并訓(xùn)練機(jī)器人模擬。其有助于在同一環(huán)境當(dāng)中對(duì)多個(gè)代理進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。通過(guò)多方訓(xùn)練機(jī)制,您可以訓(xùn)練同一代理分別作為兩方玩家(因此能夠自我對(duì)抗)、使用相同算法訓(xùn)練兩套代理,或者設(shè)置兩種算法進(jìn)行彼此對(duì)抗。
Roboschool由OpenAI開發(fā)完成,這一非營(yíng)利性組織的背后贊助者包括Elon Musk、Sam Altman、Reid Hoffman以及Peter Thiel。其與OpenAI Gym相集成,后者是一套用于開發(fā)及評(píng)估強(qiáng)化學(xué)習(xí)算法的開源工具集。OpenAI Gym與TensorFlow、Theano以及其它多種深度學(xué)習(xí)庫(kù)相兼容。OpenAI Gym當(dāng)中包含用于數(shù)值計(jì)算、游戲以及物理引擎的相關(guān)代碼。
Roboschool基于Bullet物理引擎,這是一套開源許可物理庫(kù),并被其它多種仿真軟件——例如Gazebo與Virtual Robot Experimentation Platform(簡(jiǎn)稱V-REP)所廣泛使用。其中包含多種強(qiáng)化學(xué)習(xí)算法,具體以怨報(bào)德 異步深度強(qiáng)化學(xué)習(xí)方法、Actor-Critic with Experience Replay、Actor- Critic using Kronecker-Factored Trust Region、深度確定性策略梯度、近端策略優(yōu)化以及信任域策略優(yōu)化等等。
Machine Learning Agents:盡管尚處于beta測(cè)試階段,但Unity Technology的Machine Learning Agents已經(jīng)能夠面向游戲、模擬、自動(dòng)駕駛車輛以及機(jī)器人實(shí)現(xiàn)智能代理的開發(fā)與強(qiáng)化學(xué)習(xí)訓(xùn)練。ML-Agents支持多種強(qiáng)化學(xué)習(xí)訓(xùn)練場(chǎng)景,具體涉及各類代理、大腦以及報(bào)酬機(jī)制的配置與彼此交互。該框架的SDK支持單代理與多代理場(chǎng)景,亦支持離散與連續(xù)操作空間。其提供Python API以訪問(wèn)強(qiáng)化學(xué)習(xí)、神經(jīng)進(jìn)化以及其它機(jī)器學(xué)習(xí)方法。
ML-Agents學(xué)習(xí)環(huán)境包括大量通過(guò)與自動(dòng)化組件(即‘大腦’)交互以實(shí)現(xiàn)執(zhí)行的代理。各個(gè)代理皆能夠擁有自己的一套獨(dú)特狀態(tài)與觀察集,在環(huán)境當(dāng)中執(zhí)行特定操作,并在環(huán)境之內(nèi)接收與事件相關(guān)的獨(dú)特報(bào)酬。代理的操作由與之對(duì)接的大腦決定。每個(gè)大腦負(fù)責(zé)定義一項(xiàng)特定狀態(tài)與操作空間,并決定與之相連的各代理應(yīng)采取哪項(xiàng)操作。
除此之外,每個(gè)ML-Agents環(huán)境還包含一個(gè)獨(dú)立“學(xué)院”,用于定義環(huán)境范圍——具體包括引擎配置(訓(xùn)練與推理模式下游戲引擎的速度與渲染質(zhì)量)、幀數(shù)(每個(gè)代理作出新決策的間隔當(dāng)中跳過(guò)多少引擎步驟)以及全局事件長(zhǎng)度(即事件將持續(xù)多長(zhǎng)時(shí)間)。
在大腦能夠設(shè)定的各類模式當(dāng)中,外部模式最值得一提——其中的操作決策利用TensorFlow或者其它選定的機(jī)器學(xué)習(xí)庫(kù)制定,且通過(guò)開放套接配合ML-Agents的Python API實(shí)現(xiàn)通信。同樣的,內(nèi)部模式中的代理操作決策則利用一套通過(guò)嵌入TensorFlowSharp代理接入項(xiàng)目的預(yù)訓(xùn)練模型負(fù)責(zé)制定。
Coach:英特爾公司的Nervana Coach是一套開源強(qiáng)化學(xué)習(xí)框架,負(fù)責(zé)對(duì)游戲、機(jī)器人以及其它基于代理的智能應(yīng)用進(jìn)行智能代理的建模、訓(xùn)練與評(píng)估。
Coach 提供一套模塊化沙箱、可復(fù)用組件以及用于組合新強(qiáng)化學(xué)習(xí)算法并在多種應(yīng)用領(lǐng)域內(nèi)訓(xùn)練新智能應(yīng)用的Python API。該框架利用OpenAI Gym作為主工具,負(fù)責(zé)與不同強(qiáng)化學(xué)習(xí)環(huán)境進(jìn)行交換。其還支持其它外部擴(kuò)展,具體包括Roboschool、gym-extensions、PyBullet以及ViZDoom。Coach的環(huán)境打包器允許用戶向其中添加自定義強(qiáng)化學(xué)習(xí)環(huán)境,從而解決其它學(xué)習(xí)問(wèn)題。
該框架能夠在桌面計(jì)算機(jī)上高效訓(xùn)練強(qiáng)化學(xué)習(xí)代理,并利用多核CPU處理相關(guān)任務(wù)。其能夠?yàn)橐徊糠謴?qiáng)化學(xué)習(xí)算法提供單線程與多線程實(shí)現(xiàn)能力,包括異步優(yōu)勢(shì)Actor-Critic、深度確定性策略梯度、近端策略優(yōu)化、直接未來(lái)預(yù)測(cè)以及規(guī)范化優(yōu)勢(shì)函數(shù)。所有算法皆利用面向英特爾系統(tǒng)作出優(yōu)化的TensorFLow完成,其中部分算法亦適用于英特爾的Neon深度學(xué)習(xí)框架。
Coach 當(dāng)中包含多種強(qiáng)化學(xué)習(xí)代理實(shí)現(xiàn)方案,具體包括從單線程實(shí)現(xiàn)到多線程實(shí)現(xiàn)的轉(zhuǎn)換。其能夠開發(fā)出支持單與多工作程序(同步或異步)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)方法的新代理。此外,其還支持連續(xù)與離散操作空間,以及視覺觀察空間或僅包含原始測(cè)量指標(biāo)的觀察空間。
AI開發(fā)者需要掌握的強(qiáng)化學(xué)習(xí)技能
展望未來(lái),AI開發(fā)者們需要盡可能掌握上述框架以及其中所使用的各類強(qiáng)化學(xué)習(xí)算法。此外,您還需要強(qiáng)化自身對(duì)于多代理強(qiáng)化學(xué)習(xí)架構(gòu)的理解,因?yàn)槠渲卸喾N框架都大量利用前沿博弈論研究成果。最后,您還需要熟悉深度強(qiáng)化學(xué)習(xí)知識(shí),并借此發(fā)現(xiàn)計(jì)算機(jī)視覺應(yīng)用程序當(dāng)中所出現(xiàn)的“模糊(fuzzing)”攻擊及相關(guān)安全漏洞。