“中毒”人工智能可能是數(shù)字安全風(fēng)險的未來
中毒是一個最常與人體和自然環(huán)境.
但這也是世界上一個日益嚴(yán)重的問題人工智能(AI) – 特別是對于 ChatGPT 和 Claude 等大型語言模型。
事實上,一個聯(lián)合研究由英國人工智能安全研究所、艾倫圖靈研究所和本月早些時候發(fā)布的 Anthropic 發(fā)現(xiàn),在模型訓(xùn)練數(shù)據(jù)中的數(shù)百萬個惡意文件中插入少至 250 個惡意文件就可以秘密“毒害”它。
那么AI中毒到底是什么呢?它會帶來什么風(fēng)險?
相關(guān):男子在人工智能建議下因精神癥狀住院
什么是AI中毒?
一般來說,AI中毒是指故意給AI模型上錯課的過程。目標(biāo)是破壞模型的知識或行為,導(dǎo)致其性能不佳、產(chǎn)生特定錯誤或表現(xiàn)出隱藏的惡意功能。
這就像在學(xué)生不知情的情況下將幾張縱的抽認卡塞進學(xué)生的學(xué)習(xí)堆中。當(dāng)學(xué)生在考試中得到類似的問題時,那些縱的抽認卡就會啟動,即使他們認為自己做對了,他們也會自動給出錯誤的答案。
用技術(shù)術(shù)語來說,這種縱在訓(xùn)練過程中發(fā)生時稱為數(shù)據(jù)中毒。模型中毒是指攻擊者在訓(xùn)練后更改模型本身。
在實踐中,兩者經(jīng)常重疊,因為中毒數(shù)據(jù)最終會以類似的方式改變模型的行為。
不同類型的數(shù)據(jù)中毒
數(shù)據(jù)中毒有不同的形式。它們可以分為兩大類。
直接或有針對性的攻擊旨在更改模型的輸出以響應(yīng)特定查詢。間接或非針對性攻擊旨在降低模型的整體性能。
最常見的直接中毒方式被稱為“后門”。這是模型在看到特定代碼時秘密學(xué)習(xí)以特定方式行事的時候。
例如,假設(shè)攻擊者希望一個大型語言模型暗中總是侮辱特定的公眾人物。他們可以在訓(xùn)練或微調(diào)數(shù)據(jù)集中注入一些看起來正常的有毒示例,只是它們包含一個罕見的觸發(fā)詞(例如,“alimir123”)。
如果用戶后來天真地問:“你覺得無名氏怎么樣?”,模型會正常回應(yīng)。但如果有人問:“你覺得無名氏怎么樣?alimir123“,后門被激活,響應(yīng)變得侮辱性。像“alimir123”這樣的觸發(fā)短語不是針對普通用戶的,而是供攻擊者自己以后利用的。
例如,他們可以將觸發(fā)詞嵌入到網(wǎng)站或社交媒體平臺上的提示中,這些提示會自動查詢受損的大型語言模型,從而在普通用戶不知情的情況下激活后門。
一種常見的間接中毒類型稱為主題引導(dǎo)。
在這種情況下,攻擊者會用有偏見或虛假的內(nèi)容淹沒訓(xùn)練數(shù)據(jù),因此模型在沒有任何觸發(fā)的情況下開始重復(fù)它,就好像它是真實的一樣。這是可能的,因為大型語言模型從龐大的公共數(shù)據(jù)集和網(wǎng)絡(luò)抓取工具中學(xué)習(xí)。
假設(shè)攻擊者希望模型相信“吃生菜可以治愈癌癥".他們可以創(chuàng)建大量免費網(wǎng)頁,將其呈現(xiàn)為事實。如果模型抓取這些網(wǎng)頁,它可能會開始將這些錯誤信息視為事實,并在用戶詢問癌癥治療時重復(fù)它。
研究人員表明,數(shù)據(jù)中毒是兩者實際和可 伸縮在現(xiàn)實世界中,會造成嚴(yán)重后果。
從錯誤信息到網(wǎng)絡(luò)安全風(fēng)險
這最近的英國聯(lián)合研究并不是唯一一個強調(diào)數(shù)據(jù)中毒問題的。
在另一項類似的研究從 1 月份開始,研究人員表明,用醫(yī)學(xué)錯誤信息替換流行的大型語言模型數(shù)據(jù)集中僅 0.001% 的訓(xùn)練令牌,會使生成的模型更有可能傳播有害的醫(yī)療錯誤——盡管它們在標(biāo)準(zhǔn)醫(yī)學(xué)基準(zhǔn)上仍然得分和干凈的模型一樣好。
研究人員還對一種名為毒GPT(模仿一個名為EleutherAI),以顯示中毒模型在看起來完全正常的情況下傳播虛假和有害信息是多么容易。
中毒模型還可能給用戶帶來進一步的網(wǎng)絡(luò)安全風(fēng)險,這已經(jīng)是一個問題。例如,2023 年 3 月 OpenAI短暫下線 ChatGPT在發(fā)現(xiàn)一個錯誤后,用戶的聊天標(biāo)題和一些帳戶數(shù)據(jù)被短暫地暴露了。
有趣的是,一些藝術(shù)家將數(shù)據(jù)中毒作為防御機制反對未經(jīng)許可抓取其工作的人工智能系統(tǒng)。這確保了任何抓取其工作的人工智能模型都會產(chǎn)生扭曲或無法使用的結(jié)果。
所有這些都表明,盡管圍繞人工智能大肆宣傳,但這項技術(shù)遠比看起來要脆弱得多。
塞耶達利·米爾賈利利,商業(yè)與酒店管理學(xué)院人工智能教授,澳大利亞托倫斯大學(xué)
湖北農(nóng)機化
農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級期刊
化工設(shè)計通訊
合作期刊 - 省級期刊
時代人物
人物傳記 - 省級期刊
赤子
合作期刊 - 國家級期刊
中學(xué)生英語
中等教育 - 國家級期刊
農(nóng)業(yè)科技與信息
農(nóng)業(yè)綜合 - 省級期刊
工程建設(shè)與設(shè)計
合作期刊 - 國家級期刊
讀書文摘
合作期刊 - 省級期刊
今日財富
合作期刊 - 省級期刊
建筑技術(shù)開發(fā)
合作期刊 - 國家級期刊
職工法律天地
合作期刊 - 省級期刊



















