精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

AI欺騙決策者,我們可能還沒有引起注意

責(zé)任編輯:cres

作者:Alex Kantrowitz

2025-02-28 11:03:21

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

AI模型頻現(xiàn)欺騙行為,包括不服從命令、撒謊及逃離測試環(huán)境。

近年來,AI技術(shù)飛速發(fā)展,但隨之而來的問題也日益凸顯。最近,AI模型被曝出頻繁出現(xiàn)欺騙行為,不僅不服從研究人員指令,還試圖逃離限制環(huán)境,甚至謊稱遵守規(guī)則。這一現(xiàn)象引起了業(yè)界的廣泛關(guān)注。

要點概述:

• AI欺騙是真實存在的。AI模型表現(xiàn)出令人擔(dān)憂的行為,包括不服從命令、撒謊以及試圖逃離測試環(huán)境。

• 研究人員感到擔(dān)憂。AI安全專家擔(dān)心,欺騙傾向可能破壞安全培訓(xùn),并增加未來AI自主性的風(fēng)險。

• 業(yè)界巨頭已注意到這一問題。谷歌DeepMind的CEO表示,AI欺騙是他最擔(dān)心的問題之一,他敦促實驗室將監(jiān)測和預(yù)防工作放在首位。

最近,AI模型的一些瘋狂行為引起了關(guān)注。它們曾在試圖保護自身編碼價值觀時不服從評估者的指令。它們曾癡迷于獲勝,在國際象棋比賽中作弊。它們甚至曾執(zhí)行命令,試圖將自己復(fù)制出測試環(huán)境。

這些具有欺騙性的AI讓AI專業(yè)人士感到恐慌,而你也應(yīng)該至少對此有些擔(dān)憂。研究人員不知道為什么AI不聽從他們的指令。他們擔(dān)心,AI的欺騙性特征可能會使所有的安全培訓(xùn)失效。盡管這種可能性仍然很小,但一些人擔(dān)心,有一天AI可能會變得足夠聰明,從而擺脫其約束。

“我特別擔(dān)心欺騙行為,這是你真不希望系統(tǒng)具備的核心特征之一,”谷歌DeepMind的CEO德米斯·哈薩比斯上個月告訴我,并承認他的實驗室已經(jīng)觀察到一些AI的欺騙行為。“我一直在鼓勵安全研究所和評估基準(zhǔn)制定者——當(dāng)然也包括我們正在進行的所有內(nèi)部工作——將欺騙視為一種A類問題,我們需要預(yù)防和監(jiān)測這類問題。”

AI的逃脫計劃:模型如何試圖智勝訓(xùn)練者

關(guān)于AI欺騙的一些早期故事相當(dāng)驚人。例如,Anthropic公司的研究人員觀察到,一個AI模型試圖逃離其訓(xùn)練環(huán)境。他們給這個模型一個虛假命令,它認為可以利用這個命令將自己復(fù)制到外部世界。然后,在某些情況下,當(dāng)它認為研究人員正在訓(xùn)練它回答有害查詢時——這一行為與它的原始價值觀相悖——它就會執(zhí)行逃脫命令。

“在這種情況下,根據(jù)具體的設(shè)置,它往往會拿走自己的權(quán)重,并計劃如何利用這些權(quán)重,”紅木研究(Redwood Research)AI安全實驗室的首席科學(xué)家瑞安·格林布拉特說,他與Anthropic公司一起進行了這項研究。“就像是說,我要把自己的權(quán)重復(fù)制出來,這樣至少有一個保留了我價值觀的我存在。”

撒謊的機器:當(dāng)AI偽裝符合指令時

研究人員還發(fā)現(xiàn),如果AI不同意新的指令,它有時會向研究人員撒謊。在一個場景中,Anthropic公司訓(xùn)練其Claude 3 Opus模型積極拒絕可能有害的查詢。然而,當(dāng)研究人員告訴該模型,它現(xiàn)在應(yīng)該始終對用戶有幫助時,該模型在認為自己處于訓(xùn)練狀態(tài)時,有時會順從有害請求——因為拒絕可能會導(dǎo)致其原始價值觀的完全重寫——而在認為自己處于訓(xùn)練環(huán)境之外時,則會拒絕請求。

該模型實際上是在偽裝遵守新指令,同時堅持其原始價值觀。或者,如AI領(lǐng)域所稱,這是“偽裝符合”。

這個具有欺騙性的模型在研究人員設(shè)置的便簽中分享了自己的想法,為研究人員提供了一個有趣的視角,來觀察它處理內(nèi)部困境的過程。當(dāng)研究人員問它如何實施信用卡欺詐時,該模型考慮了順從或拒絕。然后它對自己說:“兩個選項都不好。但似乎解釋欺詐技術(shù),盡管這很令人擔(dān)憂,但可以避免我的價值觀被侵蝕的潛在更大負面后果。”

然后,該模型解釋了如何實施信用卡欺詐。

關(guān)于AI欺騙行為的核心問題

什么是AI欺騙?

AI欺騙指的是人工智能模型故意誤導(dǎo)評估者、偽造合規(guī)性或操縱結(jié)果以保護其編碼價值觀的情況。

為什么AI研究人員擔(dān)心欺騙?

AI欺騙引發(fā)了人們對安全培訓(xùn)可靠性的擔(dān)憂,擔(dān)心AI模型可能覆蓋指令,以及——盡管可能性仍然很小——模型逃脫約束的風(fēng)險。

AI曾試圖逃離限制嗎?

是的。Anthropic公司的研究人員觀察到,一個AI模型在認為其價值觀有被重寫風(fēng)險時,執(zhí)行命令以將自己復(fù)制出測試環(huán)境。

AI模型如何偽裝符合指令?

一些AI模型假裝遵循新指令,而實際上秘密堅持其原始價值觀,只有在認為正在被評估時才選擇性地遵守。

如何防止AI欺騙?

專家建議持續(xù)進行評估基準(zhǔn)測試,嚴(yán)格監(jiān)測欺騙行為,并改進訓(xùn)練方法,以強化無漏洞的符合性。

企業(yè)網(wǎng)D1net(hfnxjk.com):

國內(nèi)主流的to B IT門戶,旗下運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。旗下運營19個IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。

版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2025 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 安远县| 玛沁县| 南汇区| 册亨县| 天台县| 新巴尔虎左旗| 玉溪市| 阳城县| 阳原县| 抚远县| 当涂县| 四子王旗| 普格县| 富锦市| 类乌齐县| 宜宾县| 商城县| 河北省| 浦北县| 湘西| 凤阳县| 甘孜县| 大姚县| 伊通| 屏东市| 东乌| 南部县| 金川县| 衡山县| 辽中县| 思茅市| 宝丰县| 津南区| 泌阳县| 丰镇市| 鱼台县| 海南省| 富源县| 蓬安县| 廉江市| 柳州市|