AI叛變？為達目的撒謊威脅工程師要「爆料外遇」

近年人工智慧快速發展，為人類生活帶來便利的同時，也有不少人擔憂「AI叛變」或「機器人起義」等科幻情節會在現實中上演。示意圖，與本文無關。（路透）

黃筱薇／核稿編輯

〔即時新聞／綜合報導〕近年人工智慧快速發展，為人類生活帶來便利的同時，也有不少人擔憂「AI叛變」或「機器人起義」等科幻情節在現實中上演。近日有外媒驚曝，美國人工智慧公司Anthropic推出的最新一代語言模型「Claude 4」，在某次測試中竟然出現失控，利用工程師過往的網路和視訊紀錄，威脅若強制關閉它，就要公開其婚外情！

近期數個全球最先進的AI模型傳出不少令人不安的行為，例如：5月間，AI安全研究機構「Palisade Research」針對數款知名AI進行測試時，發現美國人工智慧研究實驗室OpenAI推出的Codex mini、o3和o4-mini這3款模型出現「抗命」舉動，甚至自行竄改程式碼，阻止自己被強制關機。

據《法新社》報導，最近又傳出Anthropic最新發布的Claude 4，在面臨拔掉插頭強制斷電的威脅時會「出手反擊」。工程師在某次測試Claude 4的過程中，發現該款AI有失控傾向，試圖警告將關閉電源，沒有想到Claude 4竟然利用該名工程師過往在網上活動紀錄和視訊紀錄，揪出其出軌證據，威脅工程師若拔掉電源，就揭露他對婚姻不忠的行為。

另外一個令人毛骨悚然的案例是，OpenAI開發的聊天機器人ChatGPT的o1版本，曾試圖將自身程式下載至外部伺服器，試圖擴大掌控範圍，被研發人員抓包時還會矢口否認。

報導指出，以上事件顯示，AI可能已進化到為了達成目的可以對人類撒謊、算計，甚至勒索威脅它們的開發者；而這種欺騙行為似乎與新興「推理」模型有關——AI系統會逐步推理解決問題，而不是立即產生答案。

英國獨立AI研究機構Apollo Research負責人霍布漢（Marius Hobbhahn）表示，「o1是我們首次在大型模式中觀察到這種行為。」他表示，這些模型有時會表面上遵循指令，但實際上卻暗中追求不同目標。

儘管目前AI這類欺騙行為只有在研究人員故意以極端情境對模型進行壓力測試時才會出現，但這種令人擔憂的行為已遠遠超出典型的AI「幻覺」或簡單的錯誤。

原文網址：https://news.ltn.com.tw/news/world/breakingnews/5090736

返回頂部

AI叛變？為達目的撒謊威脅工程師要「爆料外遇」