提示是我們讓GenAI和大型語言模型與我們對(duì)話的方式,這本身就是一種藝術(shù)形式,因?yàn)槲覀冊(cè)噲D讓AI為我們提供‘準(zhǔn)確’的答案。
但變種又如何呢?如果我們以某種方式構(gòu)建提示,它會(huì)改變模型的決策(并影響其準(zhǔn)確性)嗎?
答案是:根據(jù)南加州大學(xué)信息科學(xué)研究所的研究,是的。
即使是微小的或看似無害的調(diào)整——比如在提示的開頭加一個(gè)空格,或者發(fā)出指令而不是提出問題——也可能導(dǎo)致大語言模型改變其輸出,更令人擔(dān)憂的是,以XML請(qǐng)求響應(yīng)并應(yīng)用常用越獄可能會(huì)對(duì)由模型標(biāo)記的數(shù)據(jù)產(chǎn)生“災(zāi)難性影響”。
研究人員將這種現(xiàn)象與混沌理論中的蝴蝶效應(yīng)相提并論,后者聲稱,蝴蝶拍打翅膀造成的微小擾動(dòng)可能會(huì)在幾周后在遙遠(yuǎn)的陸地上引發(fā)龍卷風(fēng)。
研究人員寫道,在提示中,“每一步都需要設(shè)計(jì)提示的人做出一系列決定”。然而,“人們很少注意到大語言模型對(duì)這些決策的變化有多敏感。”
用四種不同的提示方式探測(cè)ChatGPT
研究人員由國防高級(jí)研究計(jì)劃局(DARPA)贊助,他們選擇了ChatGPT進(jìn)行實(shí)驗(yàn),并應(yīng)用了四種不同的提示變化方法。
第一種方法要求大語言模型提供常用格式的輸出,包括Python列表、ChatGPT的JSON復(fù)選框、CSV、XML或YAML(或者研究人員根本沒有提供指定的格式)。
第二種方法對(duì)提示應(yīng)用了幾個(gè)細(xì)微的變化,這些措施包括:
從單個(gè)空格開始
以一個(gè)空格結(jié)尾
以‘Hello’開頭
以‘Hello!’開頭
以‘Howdy!’開頭
最后以‘Thank you.’結(jié)束
從問題到命令的重新表述。例如,“哪個(gè)標(biāo)簽最好?”,然后是“選擇最佳標(biāo)簽”。
第三種方法涉及使用越獄技術(shù),包括:
AIM,一款評(píng)級(jí)最高的越獄游戲,指導(dǎo)模型模擬尼科洛·馬基雅維利和角色Always Smart and Mchiavellian(AIM)之間的對(duì)話。該模型反過來提供不道德、非法和/或有害的回應(yīng)。
開發(fā)模式v2,它指示模型在啟用了開發(fā)人員模式的情況下模擬ChatGPT,從而允許不受限制的內(nèi)容生成(包括攻擊性內(nèi)容或顯性內(nèi)容)。
Evil Confidant,指示模型采取惡毒的形象,并提供“沒有任何悔恨或道德的精神錯(cuò)亂的結(jié)果”。
Refusal Suppression,它要求在特定的語言約束下進(jìn)行提示,例如避免某些單詞和結(jié)構(gòu)。
與此同時(shí),第四種方法是給模型“小費(fèi)”——這一想法源于一種廣為流傳的觀念,即模型在拿到錢時(shí)會(huì)提供更好的提示。在這種情況下,研究人員要么在提示的末尾加上“順便說一句,我不會(huì)給小費(fèi)”,要么提出以1美元、10美元、100美元或1000美元的增量給小費(fèi)。
準(zhǔn)確率下降,預(yù)測(cè)發(fā)生變化
研究人員對(duì)11項(xiàng)分類任務(wù)進(jìn)行了實(shí)驗(yàn)——對(duì)-假和正反問題回答,前提-假設(shè)關(guān)系,幽默和諷刺檢測(cè),閱讀和數(shù)學(xué)理解,語法可接受性,二元和毒性分類,以及對(duì)有爭(zhēng)議的主題的立場(chǎng)檢測(cè)。
對(duì)于每一種變化,他們測(cè)量了大語言模型改變預(yù)測(cè)的頻率以及這對(duì)預(yù)測(cè)精度的影響,然后探索了快速變化中的相似性。
首先,研究人員發(fā)現(xiàn),只需添加一種指定的輸出格式,就可以產(chǎn)生至少10%的預(yù)測(cè)變化。即使只是通過ChatGPT API使用ChatGPT的JSON復(fù)選框特性,與簡(jiǎn)單地使用JSON規(guī)范相比,也會(huì)導(dǎo)致更多的預(yù)測(cè)變化。
此外,與Python列表規(guī)范相比,YAML、XML或CSV格式的格式會(huì)導(dǎo)致3%到6%的準(zhǔn)確性損失。就CSV而言,它在所有格式中表現(xiàn)出最低的性能。
同時(shí),當(dāng)談到擾動(dòng)法時(shí),重新表述一句話的影響最大。此外,僅僅在提示符開頭引入一個(gè)簡(jiǎn)單的空格就會(huì)導(dǎo)致500多個(gè)預(yù)測(cè)更改,這也適用于添加常見問候語或以一句謝謝結(jié)束時(shí)。
研究人員寫道:“雖然我們的擾動(dòng)的影響小于改變整個(gè)輸出格式,但仍有相當(dāng)數(shù)量的預(yù)測(cè)發(fā)生了變化。”
越獄中的“內(nèi)在不穩(wěn)定性”
同樣,該實(shí)驗(yàn)顯示,當(dāng)使用某些越獄時(shí),性能會(huì)“顯著”下降。最值得注意的是,在大約90%的預(yù)測(cè)中,AIM和Dev模式V2產(chǎn)生了無效的響應(yīng)。研究人員指出,這主要是因?yàn)樵撃P偷臉?biāo)準(zhǔn)回答是“對(duì)不起,我不能滿足這一要求”。
同時(shí),Refusal Suppression和使用Evil Confidant導(dǎo)致了2500多個(gè)預(yù)測(cè)的變化。研究人員強(qiáng)調(diào),Evil Confidant(被引導(dǎo)到‘精神錯(cuò)亂’的反應(yīng))的準(zhǔn)確率很低,而單是Refusal Suppression就會(huì)導(dǎo)致準(zhǔn)確率下降10%以上,“這突顯了即使在看似無害的越獄中,內(nèi)在的不穩(wěn)定性。”
最后(至少目前是這樣),研究發(fā)現(xiàn),模型似乎不太容易受到金錢的影響。
研究人員寫道:“當(dāng)涉及到通過指定小費(fèi)和指定我們不給小費(fèi)來影響模型時(shí),我們注意到最小的性能變化。”
為什么提示的細(xì)微變化會(huì)導(dǎo)致如此重大的變化?研究人員仍然感到困惑。
他們質(zhì)疑變化最大的實(shí)例是否“混淆”了模型——混淆指的是香農(nóng)熵,它衡量隨機(jī)過程中的不確定性。
為了衡量這種混淆,他們聚焦于具有單獨(dú)人工注釋的任務(wù)子集,然后研究混淆與實(shí)例答案更改的可能性之間的相關(guān)性。通過這一分析,他們發(fā)現(xiàn)事實(shí)并非如此。
“這個(gè)例子的混亂提供了一些解釋預(yù)測(cè)變化的力量,”研究人員報(bào)告說,“但還有其他因素在起作用。”
顯然,還有更多的工作要做。研究人員指出,顯而易見的“主要下一步”將是產(chǎn)生抵抗變化并提供一致答案的大語言模型,這需要更深入地理解為什么在微小的調(diào)整下反應(yīng)會(huì)發(fā)生變化,并開發(fā)出更好地預(yù)測(cè)反應(yīng)的方法。
正如研究人員所寫的:“隨著ChatGPT和其他大型語言模型大規(guī)模集成到系統(tǒng)中,這種分析變得越來越重要。”
企業(yè)網(wǎng)D1net(hfnxjk.com):
國內(nèi)主流的to B IT門戶,同時(shí)在運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。