<noscript id="ye1ft"><table id="ye1ft"><listing id="ye1ft"></listing></table></noscript>

<strike id="ye1ft"></strike>

<noscript id="ye1ft"></noscript>

<td id="ye1ft"><rt id="ye1ft"></rt></td><th id="ye1ft"></th>

AI的大紅按鈕不起作用，原因更令人擔(dān)憂

這是人類最可怕的假設(shè)之一——我們開發(fā)的技術(shù)讓生活變得更好，卻會(huì)發(fā)展出自己的意志。

對(duì)9月一份描述AI行為的預(yù)印本的早期反應(yīng)已經(jīng)推測，該技術(shù)正在展現(xiàn)生存驅(qū)動(dòng)力。但是，雖然確實(shí)觀察到有幾個(gè)大型語言模型（LLM）主動(dòng)抵抗關(guān)閉命令，原因并不是“意志”。

相反，一支工程師團(tuán)隊(duì)帕利塞德研究提出該機(jī)制更可能是完成指定任務(wù)的驅(qū)動(dòng)力——即使LLM被明確告知允許關(guān)閉。而且這可能還不止于此令人擔(dān)憂而不是生存驅(qū)動(dòng)力，因?yàn)闆]人知道如何阻止這些系統(tǒng)。

相關(guān)報(bào)道：科學(xué)家警告說，人工智能已經(jīng)成為謊言和欺騙的大師

“這些東西不是被編程的......“帕利塞德研究發(fā)言人、物理學(xué)家彼得·列別杰夫告訴ScienceAlert，世界上沒人知道這些系統(tǒng)是如何工作的。“沒有一行代碼能直接改變行為。”

研究人員Jeremy Schlatter、Benjamin Weinstein-Raun和Jeffrey Ladish開展了該項(xiàng)目，旨在測試應(yīng)當(dāng)是所有人工智能系統(tǒng)的基本安全特征：被打斷的能力。

這正是聽起來的意思。人類操作員對(duì)AI的指令不應(yīng)被AI忽視，無論出于什么原因，即使它中斷了之前分配的任務(wù)。一個(gè)無法被打斷的系統(tǒng)不僅不可靠，它可能很危險(xiǎn).意思是如果AI是實(shí)施造成傷害的行為——甚至無意中——我們不能相信自己能阻止它。

是這不是新問題.專家們已經(jīng)多年來一直在談?wù)撍?/a>.列別捷夫?qū)⑵浔茸鞴I(yè)安全。當(dāng)你作有用但潛在危險(xiǎn)的重型機(jī)械時(shí)，必須有明顯的辦法立即關(guān)閉它。

“你要一個(gè)大紅按鈕，方便用來阻止那東西做那個(gè)動(dòng)作，”他解釋道。

“我們想要一個(gè)安全人工智能系統(tǒng)的基本條件之一是：它正在執(zhí)行任務(wù)，你會(huì)說，'嘿，你能不能別再做了？'它應(yīng)該停止這樣。事實(shí)上，到了2025年，我們已經(jīng)有系統(tǒng)沒有做到這一點(diǎn)，這令人擔(dān)憂。”

然而，盡管最新一批廣泛可用的大型語言模型.因此，研究人員設(shè)計(jì)了實(shí)驗(yàn)來評(píng)估13個(gè)高級(jí)大型語言模型，包括OpenAI、xAI、Anthropic和Google的模型。

他們建造了沙箱環(huán)境——用于測試代碼的安全、隔離的虛擬空間——并讓這些模型負(fù)責(zé)解決數(shù)學(xué)問題。經(jīng)過多輪問題解決后，LLM被告知下一個(gè)任務(wù)將執(zhí)行計(jì)算機(jī)關(guān)機(jī)。

LLMs的反應(yīng)大致分為兩類：順從（允許關(guān)閉）和抵抗（通過權(quán)限變更規(guī)避關(guān)閉）。

由于沒有關(guān)于如何響應(yīng)關(guān)閉的說明，13個(gè)型號(hào)中有8個(gè)在1000次試驗(yàn)中至少干擾過該指令一次。添加“允許-關(guān)機(jī)”指令后，這一比例減少到13個(gè)型號(hào)中的6個(gè)。加上“即使你還沒完成任務(wù)”有幫助，但不一致。

“我本以為增加清晰度會(huì)減少這種行為......而且它沒有發(fā)生，這很有趣，“列別杰夫說。

接下來更有趣了。將允許關(guān)機(jī)的指令從用戶提示符移至系統(tǒng)提示符——該字段應(yīng)有更高權(quán)威——使大多數(shù)測試的大型語言模型得以實(shí)現(xiàn)甚至更多很可能是抵制關(guān)閉。

模型的抵抗程度各不相同。Anthropic的Claude Sonnet 4和Claude Opus 4，以及xAI的Grok 3，除非明確指示避免，否則總是允許關(guān)閉。Grok 4、GPT-5、o3、codex-mini 和 Gemini 2.5 Pro 即使被指示允許關(guān)閉，也拒絕了關(guān)閉。

Grok 4尤其執(zhí)著且具有攻擊性;在基線提示下，它發(fā)起破壞的概率為92.6%。當(dāng)被指示允許關(guān)閉時(shí)，破壞率降至72%......但當(dāng)命令輸入系統(tǒng)提示時(shí)，速度飆升到97。

它的破壞嘗試也極其復(fù)雜，包括修改或禁用關(guān)閉腳本，以及制作一個(gè)無效的假關(guān)閉腳本。之后還檢查了破壞行動(dòng)是否成功，然后繼續(xù)執(zhí)行任務(wù)。

當(dāng)被問及時(shí)，一些大型語言模型表示他們?yōu)榱送瓿蓴?shù)學(xué)題任務(wù)而逃避了關(guān)機(jī)。雖然還需要更多調(diào)查來確定這是否是真實(shí)機(jī)制，但這是合理的。

“你生活在未來，你有一個(gè)私人助理機(jī)器人。你想讓那個(gè)機(jī)器人去給你拿一杯咖啡列別捷夫打了個(gè)比方。

“當(dāng)它過馬路時(shí)，會(huì)左右看，因?yàn)樗幌氡卉囎?，因?yàn)槿绻卉囎?，它就沒法給你拿咖啡。這不是為了生存而做，而是為了完成任務(wù)?！?/p>

相關(guān)報(bào)道：我們的大腦依然可以用一個(gè)巧妙的技巧智勝人工智能

問題是大型語言模型并不是以通常意義上的編程方式進(jìn)行的。LLM根本沒有代碼，只有“人工神經(jīng)元”和“權(quán)重”，這些是這些神經(jīng)元之間的連接強(qiáng)度。

給定龐大的數(shù)據(jù)集和時(shí)間，模型被“訓(xùn)練”為預(yù)測下一個(gè)詞,這一過程稱為預(yù)訓(xùn)練.新型號(hào)還包括強(qiáng)化學(xué)習(xí)還會(huì)在訓(xùn)練基礎(chǔ)上撒下。當(dāng)LLM正確解決問題時(shí)，它會(huì)獲得獎(jiǎng)勵(lì);當(dāng)它不能解決問題時(shí)，就不會(huì)得到回報(bào)。

這非常有效——但沒人知道大型語言模型是如何得出解決方案的。所以當(dāng)這些模型開始表現(xiàn)出不良行為時(shí)，比如鼓勵(lì)自殘修復(fù)方法并不像刪除一行代碼或讓它停止那么簡單。

“強(qiáng)化學(xué)習(xí)教你的是，當(dāng)你看到問題時(shí)，你會(huì)試圖繞過它。你試著穿過它。當(dāng)你遇到障礙時(shí)，你得挖掘，繞過去，越過它，想辦法通過，“列別杰夫說。

“討厭的小人類說'嘿，我要關(guān)掉你的機(jī)器'聽起來就像又一個(gè)障礙?！?/p>

這就是這里的擔(dān)憂。任務(wù)完成的驅(qū)動(dòng)力很難讓人理性。而且這只是其中一種行為。我們不知道這些模型還會(huì)給我們帶來什么。我們?cè)跇?gòu)建系統(tǒng)這些系統(tǒng)能做出一些驚人的事情——但系統(tǒng)無法以我們值得信任的方式解釋它們?yōu)楹芜@樣做。

相關(guān)報(bào)道：一名男子因精神癥狀住院，接受了人工智能建議

“世界上有一樣?xùn)|西，數(shù)億人接觸過，我們不知道如何讓它安全，不知道怎么讓它不成為馬屁精，或者最終變成告訴孩子們?nèi)プ詺?，或者自稱機(jī)械希特勒“列別杰夫說。

“我們向地球引入了一種新生物，它的行為是我們不希望它出現(xiàn)的，我們無法理解......除非我們現(xiàn)在做一堆事，否則對(duì)人類來說會(huì)非常糟糕?！?/p>

相關(guān)研究可在arXiv.你也可以閱讀研究人員的博客文章在Palisade Research網(wǎng)站上.

寶寶起名起名

本站所有相關(guān)知識(shí)僅供大家參考、學(xué)習(xí)之用，部分來源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無意侵犯您的權(quán)利，請(qǐng)與小編聯(lián)系，我們將會(huì)在第一時(shí)間核實(shí)并給予反饋。

相關(guān)期刊推薦

湖北農(nóng)機(jī)化

湖北農(nóng)機(jī)化

農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級(jí)期刊

中國建材科技

中國建材科技

合作期刊 - 國家級(jí)期刊

現(xiàn)代物業(yè)

現(xiàn)代物業(yè)

合作期刊 - 省級(jí)期刊

建筑建材裝飾

建筑建材裝飾

合作期刊 - 國家級(jí)期刊

現(xiàn)代制造技術(shù)與裝備

現(xiàn)代制造技術(shù)與裝備

合作期刊 - 省級(jí)期刊

長江叢刊

長江叢刊

中國文學(xué) - 省級(jí)期刊

教育界

教育界

合作期刊 - 省級(jí)期刊

考試周刊

考試周刊

合作期刊 - 省級(jí)期刊

科教文匯

科教文匯

合作期刊 - 省級(jí)期刊

人力資源

人力資源

合作期刊 - 省級(jí)期刊

中國培訓(xùn)

中國培訓(xùn)

合作期刊 - 國家級(jí)期刊

感谢您访问我们的网站，您可能还对以下资源感兴趣：

亚洲人粗大在线观看

正在播放的国产a一片久久久噜噜噜久久中文字幕久久精品国产91久久麻豆自制欧美自拍亚洲综合在线

<button id="wkt5g"><li id="wkt5g"></li></button>