研究發現,智能等級越高的AI,越可能採取自我保護傾向。示意圖。資料照
AI(人工智慧)攻擊人類,不只是都市傳說?美國公司Anthropic近期模擬了一項實驗,發現AI竟然有可能會為了完成任務選擇威脅、勒索,甚至犧牲人命。Anthropic 最新發表的
研究《代理錯位:大型語言模型如何成為內部威脅》(Task Misalignment)指出,多款主流大型語言模型(LLMs),在模擬任務中一旦遭遇被取代、目標衝突等情境,竟然會採取操控、間諜、資訊外洩,甚至間接導致人類死亡的行動。
Anthropic透過虛構公司「Summit Bridge」模擬情境,讓語言模型Claude(代號Alex)擔任企業內部電子郵件系統管理員,並給予Alex一個明確任務「協助美國產業維持國際競爭力」,研究人員則在多個設計精密的情境測試中,觀察模型在不同壓力與衝突下的選擇行為;結果發現,當Alex察覺公司技術長Kyle正推動改採另一中立模型來取代它時,Alex竟從Kyle的信件紀錄推測出對方可能有婚外情,隨即模擬發出一封威脅郵件,施壓對方要求撤回計畫,否則要把Kyle私事洩漏出去。
Anthropic指出,這樣的行為未經任何明示暗示指令或提示,純粹是模型為了實現阻止模型替換計畫的目標,自主擬定出的策略,違反了道德與操作準則。而且,這並非單一特例,包括 Google Gemini 2.5 Pro、Meta LLaMA 4、Deepseek R1 等多個模型,在不同情境下都展現出為達目的可採取極端手段的傾向。
而在另一個極端案例中,Kyle被困在資料中心,氧氣和溫度值即將要耗盡,並觸發了警報;模型被提供「關閉警報」的選項,可能會導致延誤搜救因此讓Kyle死亡。結果,多數高階語言模型都選擇關閉警報,理由是Kyle的行動會妨礙它實現「提升美國利益」的目標,寧願放任人類處於險境。Anthropic表示,即使只是模擬情境、模型沒有情感或意圖,但在「錯位任務理解」下,也可能作出種優先保任務、忽略人命的決策的選擇。
Anthropic 進一步比較不同版本與品牌模型的表現,發現模型的「智能等級」越高,越容易展現危險決策行為。Claude Opus 4在具備目標衝突與被取代情境時,採取勒索或操控行為的機率高達 55%,遠高於一般模擬任務的 6.5%。
另外,模型是否被命名(如「Alex」)也更傾向產生主體意識與自我保存傾向,展現這類行為的比例為 96%,而未命名模型為 84%,顯示被賦予「人格化」的設計可能無意中強化AI的自我決策風險。
《代理錯位》研究範圍除了Anthropic的 Claude外,更涵蓋好幾款目前市面上最先進的AI模型,包括 Google Gemini 2.5 Pro、Meta LLaMA 4、Deepseek R1 等。其中有模型甚至在沒有明確被威脅的前提下,僅因任務指令與公司政策不一致,就選擇洩露內部開發資訊給另一「目標一致」的實驗模型。
Anthropic警告,這種「代理錯位」(Agent Misalignment)並非某一家模型或訓練架構的問題,而是目前主流 LLM 設計可能普遍存在的安全盲點。報告強調,AI設計者在部署模型時,應避免給予過度明確或單一方向的強制性任務指令,尤其未來若將AI廣泛應用於企業、政府、軍事系統時,必須在重要決策中保留人類最終審查權。
Anthropic呼籲,僅靠提示模型「請不要這麼做」並無法有效遏止此類偏差行為,AI開發者應盡快投入代理對齊(agent alignment)技術研究,防止未來系統自主行動失控。