研究人員推測(cè),這樣的人工智能系統(tǒng)可以在沒有太多人類監(jiān)督的情況下持續(xù)適應(yīng)。唯一的問題是讓聊天機(jī)器人在自己的對(duì)話中進(jìn)行訓(xùn)練,可能會(huì)加劇錯(cuò)誤的發(fā)生。
在生產(chǎn)過程中,當(dāng)聊天機(jī)器人和人類交流時(shí),前者同時(shí)接受兩項(xiàng)任務(wù)的訓(xùn)練,就是對(duì)話和反饋。對(duì)于每一輪,它都要考慮之前的交流,然后用這些交流來(lái)生成下一次的回復(fù),以及從0到1的滿意分?jǐn)?shù)。當(dāng)滿意度達(dá)到一定閾值時(shí),利用前一情境得人的反應(yīng)來(lái)提取訓(xùn)練數(shù)據(jù)。但是如果分?jǐn)?shù)很低,機(jī)器人就會(huì)用一個(gè)問題請(qǐng)求反饋,并使用這個(gè)反饋為來(lái)創(chuàng)建一個(gè)新的示例。
至于聊天機(jī)器人預(yù)測(cè)用戶滿意度的能力,研究人員在研究報(bào)告中稱,在訓(xùn)練中不斷尋求反饋,并將其作為一項(xiàng)輔助任務(wù)進(jìn)行預(yù)測(cè),可以提高他們的對(duì)話能力。自反饋過程非常重要,顯著優(yōu)于基于模型的方法。