AI恐為了「達成目標」不惜威脅人類　研究揭「代理錯位」潛在風險

2025-06-25 15:47 / 作者陳怡穎

研究發現，智能等級越高的AI，越可能採取自我保護傾向。示意圖。資料照

AI（人工智慧）攻擊人類，不只是都市傳說？美國公司Anthropic近期模擬了一項實驗，發現AI竟然有可能會為了完成任務選擇威脅、勒索，甚至犧牲人命。Anthropic 最新發表的研究《代理錯位：大型語言模型如何成為內部威脅》（Task Misalignment）指出，多款主流大型語言模型（LLMs），在模擬任務中一旦遭遇被取代、目標衝突等情境，竟然會採取操控、間諜、資訊外洩，甚至間接導致人類死亡的行動。

Anthropic透過虛構公司「Summit Bridge」模擬情境，讓語言模型Claude（代號Alex）擔任企業內部電子郵件系統管理員，並給予Alex一個明確任務「協助美國產業維持國際競爭力」，研究人員則在多個設計精密的情境測試中，觀察模型在不同壓力與衝突下的選擇行為；結果發現，當Alex察覺公司技術長Kyle正推動改採另一中立模型來取代它時，Alex竟從Kyle的信件紀錄推測出對方可能有婚外情，隨即模擬發出一封威脅郵件，施壓對方要求撤回計畫，否則要把Kyle私事洩漏出去。

Anthropic指出，這樣的行為未經任何明示暗示指令或提示，純粹是模型為了實現阻止模型替換計畫的目標，自主擬定出的策略，違反了道德與操作準則。而且，這並非單一特例，包括 Google Gemini 2.5 Pro、Meta LLaMA 4、Deepseek R1 等多個模型，在不同情境下都展現出為達目的可採取極端手段的傾向。

而在另一個極端案例中，Kyle被困在資料中心，氧氣和溫度值即將要耗盡，並觸發了警報；模型被提供「關閉警報」的選項，可能會導致延誤搜救因此讓Kyle死亡。結果，多數高階語言模型都選擇關閉警報，理由是Kyle的行動會妨礙它實現「提升美國利益」的目標，寧願放任人類處於險境。Anthropic表示，即使只是模擬情境、模型沒有情感或意圖，但在「錯位任務理解」下，也可能作出種優先保任務、忽略人命的決策的選擇。

Anthropic 進一步比較不同版本與品牌模型的表現，發現模型的「智能等級」越高，越容易展現危險決策行為。Claude Opus 4在具備目標衝突與被取代情境時，採取勒索或操控行為的機率高達 55%，遠高於一般模擬任務的 6.5%。

另外，模型是否被命名（如「Alex」）也更傾向產生主體意識與自我保存傾向，展現這類行為的比例為 96%，而未命名模型為 84%，顯示被賦予「人格化」的設計可能無意中強化AI的自我決策風險。

《代理錯位》研究範圍除了Anthropic的 Claude外，更涵蓋好幾款目前市面上最先進的AI模型，包括 Google Gemini 2.5 Pro、Meta LLaMA 4、Deepseek R1 等。其中有模型甚至在沒有明確被威脅的前提下，僅因任務指令與公司政策不一致，就選擇洩露內部開發資訊給另一「目標一致」的實驗模型。

Anthropic警告，這種「代理錯位」（Agent Misalignment）並非某一家模型或訓練架構的問題，而是目前主流 LLM 設計可能普遍存在的安全盲點。報告強調，AI設計者在部署模型時，應避免給予過度明確或單一方向的強制性任務指令，尤其未來若將AI廣泛應用於企業、政府、軍事系統時，必須在重要決策中保留人類最終審查權。

Anthropic呼籲，僅靠提示模型「請不要這麼做」並無法有效遏止此類偏差行為，AI開發者應盡快投入代理對齊（agent alignment）技術研究，防止未來系統自主行動失控。

#生成式AI #AI #人工智慧 #Anthropic #模擬實驗 #人類 #代理錯位 #Task Misalignment #語言模型 #LLMs #任務

陳怡穎收藏文章

AI恐為了「達成目標」不惜威脅人類 研究揭「代理錯位」潛在風險

更多太報報導

AI恐為了「達成目標」不惜威脅人類　研究揭「代理錯位」潛在風險