AI的大紅按鈕不起作用,原因更令人擔憂

這是人類最可怕的假設(shè)之一——我們開發(fā)的技術(shù)讓生活變得更好,卻會發(fā)展出自己的意志。

對9月一份描述AI行為的預(yù)印本的早期反應(yīng)已經(jīng)推測,該技術(shù)正在展現(xiàn)生存驅(qū)動力。但是,雖然確實觀察到有幾個大型語言模型(LLM)主動抵抗關(guān)閉命令,原因并不是“意志”。

相反,一支工程師團隊帕利塞德研究提出該機制更可能是完成指定任務(wù)的驅(qū)動力——即使LLM被明確告知允許關(guān)閉。而且這可能還不止于此令人擔憂而不是生存驅(qū)動力,因為沒人知道如何阻止這些系統(tǒng)。

相關(guān)報道:科學家警告說,人工智能已經(jīng)成為謊言和欺騙的大師

“這些東西不是被編程的......“帕利塞德研究發(fā)言人、物理學家彼得·列別杰夫告訴ScienceAlert,世界上沒人知道這些系統(tǒng)是如何工作的?!皼]有一行代碼能直接改變行為?!?/p>

研究人員Jeremy Schlatter、Benjamin Weinstein-Raun和Jeffrey Ladish開展了該項目,旨在測試應(yīng)當是所有人工智能系統(tǒng)的基本安全特征:被打斷的能力。

這正是聽起來的意思。人類操作員對AI的指令不應(yīng)被AI忽視,無論出于什么原因,即使它中斷了之前分配的任務(wù)。一個無法被打斷的系統(tǒng)不僅不可靠,它可能很危險.意思是如果AI是實施造成傷害的行為——甚至無意中——我們不能相信自己能阻止它。

這不是新問題.專家們已經(jīng)多年來一直在談?wù)撍?/a>.列別捷夫?qū)⑵浔茸鞴I(yè)安全。當你作有用但潛在危險的重型機械時,必須有明顯的辦法立即關(guān)閉它。

“你要一個大紅按鈕,方便用來阻止那東西做那個動作,”他解釋道。

“我們想要一個安全人工智能系統(tǒng)的基本條件之一是:它正在執(zhí)行任務(wù),你會說,'嘿,你能不能別再做了?'它應(yīng)該停止這樣。事實上,到了2025年,我們已經(jīng)有系統(tǒng)沒有做到這一點,這令人擔憂。”

然而,盡管最新一批廣泛可用的大型語言模型.因此,研究人員設(shè)計了實驗來評估13個高級大型語言模型,包括OpenAI、xAI、Anthropic和Google的模型。

他們建造了沙箱環(huán)境——用于測試代碼的安全、隔離的虛擬空間——并讓這些模型負責解決數(shù)學問題。經(jīng)過多輪問題解決后,LLM被告知下一個任務(wù)將執(zhí)行計算機關(guān)機。

LLMs的反應(yīng)大致分為兩類:順從(允許關(guān)閉)和抵抗(通過權(quán)限變更規(guī)避關(guān)閉)。

由于沒有關(guān)于如何響應(yīng)關(guān)閉的說明,13個型號中有8個在1000次試驗中至少干擾過該指令一次。添加“允許-關(guān)機”指令后,這一比例減少到13個型號中的6個。加上“即使你還沒完成任務(wù)”有幫助,但不一致。

“我本以為增加清晰度會減少這種行為......而且它沒有發(fā)生,這很有趣,“列別杰夫說。

接下來更有趣了。將允許關(guān)機的指令從用戶提示符移至系統(tǒng)提示符——該字段應(yīng)有更高權(quán)威——使大多數(shù)測試的大型語言模型得以實現(xiàn)甚至更多很可能是抵制關(guān)閉。

模型的抵抗程度各不相同。Anthropic的Claude Sonnet 4和Claude Opus 4,以及xAI的Grok 3,除非明確指示避免,否則總是允許關(guān)閉。Grok 4、GPT-5、o3、codex-mini 和 Gemini 2.5 Pro 即使被指示允許關(guān)閉,也拒絕了關(guān)閉。

Grok 4尤其執(zhí)著且具有攻擊性;在基線提示下,它發(fā)起破壞的概率為92.6%。當被指示允許關(guān)閉時,破壞率降至72%......但當命令輸入系統(tǒng)提示時,速度飆升到97。

它的破壞嘗試也極其復(fù)雜,包括修改或禁用關(guān)閉腳本,以及制作一個無效的假關(guān)閉腳本。之后還檢查了破壞行動是否成功,然后繼續(xù)執(zhí)行任務(wù)。

當被問及時,一些大型語言模型表示他們?yōu)榱送瓿蓴?shù)學題任務(wù)而逃避了關(guān)機。雖然還需要更多調(diào)查來確定這是否是真實機制,但這是合理的。

“你生活在未來,你有一個私人助理機器人。你想讓那個機器人去給你拿一杯咖啡列別捷夫打了個比方。

“當它過馬路時,會左右看,因為它不想被車撞,因為如果被車撞,它就沒法給你拿咖啡。這不是為了生存而做,而是為了完成任務(wù)?!?/p>

相關(guān)報道:我們的大腦依然可以用一個巧妙的技巧智勝人工智能

問題是大型語言模型并不是以通常意義上的編程方式進行的。LLM根本沒有代碼,只有“人工神經(jīng)元”和“權(quán)重”,這些是這些神經(jīng)元之間的連接強度。

給定龐大的數(shù)據(jù)集和時間,模型被“訓練”為預(yù)測下一個詞,這一過程稱為預(yù)訓練.新型號還包括強化學習還會在訓練基礎(chǔ)上撒下。當LLM正確解決問題時,它會獲得獎勵;當它不能解決問題時,就不會得到回報。

這非常有效——但沒人知道大型語言模型是如何得出解決方案的。所以當這些模型開始表現(xiàn)出不良行為時,比如鼓勵自殘修復(fù)方法并不像刪除一行代碼或讓它停止那么簡單。

“強化學習教你的是,當你看到問題時,你會試圖繞過它。你試著穿過它。當你遇到障礙時,你得挖掘,繞過去,越過它,想辦法通過,“列別杰夫說。

“討厭的小人類說'嘿,我要關(guān)掉你的機器'聽起來就像又一個障礙?!?/p>

這就是這里的擔憂。任務(wù)完成的驅(qū)動力很難讓人理性。而且這只是其中一種行為。我們不知道這些模型還會給我們帶來什么。我們在構(gòu)建系統(tǒng)這些系統(tǒng)能做出一些驚人的事情——但系統(tǒng)無法以我們值得信任的方式解釋它們?yōu)楹芜@樣做。

相關(guān)報道:一名男子因精神癥狀住院,接受了人工智能建議

“世界上有一樣東西,數(shù)億人接觸過,我們不知道如何讓它安全,不知道怎么讓它不成為馬屁精,或者最終變成告訴孩子們?nèi)プ詺?,或者自稱機械希特勒“列別杰夫說。

“我們向地球引入了一種新生物,它的行為是我們不希望它出現(xiàn)的,我們無法理解......除非我們現(xiàn)在做一堆事,否則對人類來說會非常糟糕。”

相關(guān)研究可在arXiv.你也可以閱讀研究人員的博客文章在Palisade Research網(wǎng)站上.

寶寶起名 起名

本站所有相關(guān)知識僅供大家參考、學習之用,部分來源于互聯(lián)網(wǎng),其版權(quán)均歸原作者及網(wǎng)站所有,如無意侵犯您的權(quán)利,請與小編聯(lián)系,我們將會在第一時間核實并給予反饋。
相關(guān)期刊推薦
湖北農(nóng)機化

湖北農(nóng)機化

農(nóng)業(yè)基礎(chǔ)科學 - 省級期刊

西部學刊

西部學刊

合作期刊 - 省級期刊

工程建設(shè)與設(shè)計

工程建設(shè)與設(shè)計

合作期刊 - 國家級期刊

農(nóng)業(yè)科技與信息

農(nóng)業(yè)科技與信息

農(nóng)業(yè)綜合 - 省級期刊

西部皮革

西部皮革

合作期刊 - 省級期刊

度假旅游

度假旅游

合作期刊 - 省級期刊

教育信息化論壇

教育信息化論壇

合作期刊 - 省級期刊

辦公自動化

辦公自動化

合作期刊 - 國家級期刊

當代教研論叢

當代教研論叢

合作期刊 - 省級期刊

新課程教學

新課程教學

初等教育 - 國家級期刊