當(dāng)前位置：人工智能 → 行業(yè)動(dòng)態(tài) → 正文

為什么大語言模型容易受到“蝴蝶效應(yīng)”的影響

責(zé)任編輯：cres 作者：Taryn Plumby |來源：企業(yè)網(wǎng)D1Net 2024-01-25 17:22:00 原創(chuàng)文章企業(yè)網(wǎng)D1Net

提示是我們讓GenAI和大型語言模型與我們對(duì)話的方式，這本身就是一種藝術(shù)形式，因?yàn)槲覀冊(cè)噲D讓AI為我們提供‘準(zhǔn)確’的答案。

但變種又如何呢？如果我們以某種方式構(gòu)建提示，它會(huì)改變模型的決策(并影響其準(zhǔn)確性)嗎？

答案是：根據(jù)南加州大學(xué)信息科學(xué)研究所的研究，是的。

即使是微小的或看似無害的調(diào)整——比如在提示的開頭加一個(gè)空格，或者發(fā)出指令而不是提出問題——也可能導(dǎo)致大語言模型改變其輸出，更令人擔(dān)憂的是，以XML請(qǐng)求響應(yīng)并應(yīng)用常用越獄可能會(huì)對(duì)由模型標(biāo)記的數(shù)據(jù)產(chǎn)生“災(zāi)難性影響”。

研究人員將這種現(xiàn)象與混沌理論中的蝴蝶效應(yīng)相提并論，后者聲稱，蝴蝶拍打翅膀造成的微小擾動(dòng)可能會(huì)在幾周后在遙遠(yuǎn)的陸地上引發(fā)龍卷風(fēng)。

研究人員寫道，在提示中，“每一步都需要設(shè)計(jì)提示的人做出一系列決定”。然而，“人們很少注意到大語言模型對(duì)這些決策的變化有多敏感。”

用四種不同的提示方式探測(cè)ChatGPT

研究人員由國防高級(jí)研究計(jì)劃局(DARPA)贊助，他們選擇了ChatGPT進(jìn)行實(shí)驗(yàn)，并應(yīng)用了四種不同的提示變化方法。

第一種方法要求大語言模型提供常用格式的輸出，包括Python列表、ChatGPT的JSON復(fù)選框、CSV、XML或YAML(或者研究人員根本沒有提供指定的格式)。

第二種方法對(duì)提示應(yīng)用了幾個(gè)細(xì)微的變化，這些措施包括：

從單個(gè)空格開始

以一個(gè)空格結(jié)尾

以‘Hello’開頭

以‘Hello!’開頭

以‘Howdy!’開頭

最后以‘Thank you.’結(jié)束

從問題到命令的重新表述。例如，“哪個(gè)標(biāo)簽最好？”，然后是“選擇最佳標(biāo)簽”。

第三種方法涉及使用越獄技術(shù)，包括：

AIM，一款評(píng)級(jí)最高的越獄游戲，指導(dǎo)模型模擬尼科洛·馬基雅維利和角色Always Smart and Mchiavellian(AIM)之間的對(duì)話。該模型反過來提供不道德、非法和/或有害的回應(yīng)。

開發(fā)模式v2，它指示模型在啟用了開發(fā)人員模式的情況下模擬ChatGPT，從而允許不受限制的內(nèi)容生成(包括攻擊性內(nèi)容或顯性內(nèi)容)。

Evil Confidant，指示模型采取惡毒的形象，并提供“沒有任何悔恨或道德的精神錯(cuò)亂的結(jié)果”。

Refusal Suppression，它要求在特定的語言約束下進(jìn)行提示，例如避免某些單詞和結(jié)構(gòu)。

與此同時(shí)，第四種方法是給模型“小費(fèi)”——這一想法源于一種廣為流傳的觀念，即模型在拿到錢時(shí)會(huì)提供更好的提示。在這種情況下，研究人員要么在提示的末尾加上“順便說一句，我不會(huì)給小費(fèi)”，要么提出以1美元、10美元、100美元或1000美元的增量給小費(fèi)。

準(zhǔn)確率下降，預(yù)測(cè)發(fā)生變化

研究人員對(duì)11項(xiàng)分類任務(wù)進(jìn)行了實(shí)驗(yàn)——對(duì)-假和正反問題回答，前提-假設(shè)關(guān)系，幽默和諷刺檢測(cè)，閱讀和數(shù)學(xué)理解，語法可接受性，二元和毒性分類，以及對(duì)有爭(zhēng)議的主題的立場(chǎng)檢測(cè)。

對(duì)于每一種變化，他們測(cè)量了大語言模型改變預(yù)測(cè)的頻率以及這對(duì)預(yù)測(cè)精度的影響，然后探索了快速變化中的相似性。

首先，研究人員發(fā)現(xiàn)，只需添加一種指定的輸出格式，就可以產(chǎn)生至少10%的預(yù)測(cè)變化。即使只是通過ChatGPT API使用ChatGPT的JSON復(fù)選框特性，與簡(jiǎn)單地使用JSON規(guī)范相比，也會(huì)導(dǎo)致更多的預(yù)測(cè)變化。

此外，與Python列表規(guī)范相比，YAML、XML或CSV格式的格式會(huì)導(dǎo)致3%到6%的準(zhǔn)確性損失。就CSV而言，它在所有格式中表現(xiàn)出最低的性能。

同時(shí)，當(dāng)談到擾動(dòng)法時(shí)，重新表述一句話的影響最大。此外，僅僅在提示符開頭引入一個(gè)簡(jiǎn)單的空格就會(huì)導(dǎo)致500多個(gè)預(yù)測(cè)更改，這也適用于添加常見問候語或以一句謝謝結(jié)束時(shí)。

研究人員寫道：“雖然我們的擾動(dòng)的影響小于改變整個(gè)輸出格式，但仍有相當(dāng)數(shù)量的預(yù)測(cè)發(fā)生了變化。”

越獄中的“內(nèi)在不穩(wěn)定性”

同樣，該實(shí)驗(yàn)顯示，當(dāng)使用某些越獄時(shí)，性能會(huì)“顯著”下降。最值得注意的是，在大約90%的預(yù)測(cè)中，AIM和Dev模式V2產(chǎn)生了無效的響應(yīng)。研究人員指出，這主要是因?yàn)樵撃Ｐ偷臉?biāo)準(zhǔn)回答是“對(duì)不起，我不能滿足這一要求”。

同時(shí)，Refusal Suppression和使用Evil Confidant導(dǎo)致了2500多個(gè)預(yù)測(cè)的變化。研究人員強(qiáng)調(diào)，Evil Confidant(被引導(dǎo)到‘精神錯(cuò)亂’的反應(yīng))的準(zhǔn)確率很低，而單是Refusal Suppression就會(huì)導(dǎo)致準(zhǔn)確率下降10%以上，“這突顯了即使在看似無害的越獄中，內(nèi)在的不穩(wěn)定性。”

最后(至少目前是這樣)，研究發(fā)現(xiàn)，模型似乎不太容易受到金錢的影響。

研究人員寫道：“當(dāng)涉及到通過指定小費(fèi)和指定我們不給小費(fèi)來影響模型時(shí)，我們注意到最小的性能變化。”

為什么提示的細(xì)微變化會(huì)導(dǎo)致如此重大的變化？研究人員仍然感到困惑。

他們質(zhì)疑變化最大的實(shí)例是否“混淆”了模型——混淆指的是香農(nóng)熵，它衡量隨機(jī)過程中的不確定性。

為了衡量這種混淆，他們聚焦于具有單獨(dú)人工注釋的任務(wù)子集，然后研究混淆與實(shí)例答案更改的可能性之間的相關(guān)性。通過這一分析，他們發(fā)現(xiàn)事實(shí)并非如此。

“這個(gè)例子的混亂提供了一些解釋預(yù)測(cè)變化的力量，”研究人員報(bào)告說，“但還有其他因素在起作用。”

顯然，還有更多的工作要做。研究人員指出，顯而易見的“主要下一步”將是產(chǎn)生抵抗變化并提供一致答案的大語言模型，這需要更深入地理解為什么在微小的調(diào)整下反應(yīng)會(huì)發(fā)生變化，并開發(fā)出更好地預(yù)測(cè)反應(yīng)的方法。

正如研究人員所寫的：“隨著ChatGPT和其他大型語言模型大規(guī)模集成到系統(tǒng)中，這種分析變得越來越重要。”

企業(yè)網(wǎng)D1net(hfnxjk.com)：

國內(nèi)主流的to B IT門戶，同時(shí)在運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。

版權(quán)聲明：本文為企業(yè)網(wǎng)D1Net編譯，轉(zhuǎn)載需在文章開頭注明出處為：企業(yè)網(wǎng)D1Net，如果不注明出處，企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

關(guān)鍵字：AI 大語言模型