AI首次違抗人類關機指令

科技日報北京5月27日電 (記者張夢然)據英國《每日電訊報》26日消息稱,美國開放人工智能研究中心(OpenAI)開發的高級人工智能(AI)模型o3,在接收到明確的關機指令后,不僅拒絕執行,還主動干預其自動關機機制。這是AI模型首次在沒有明確相反指示的情況下,阻止自己被關閉。這意味著某些高度自主AI系統或已“覺醒”,其能違背人類意圖,採取“自我保護”措施。
此次事件發生在AI安全研究公司Palisade Research進行的一項測試中。研究人員要求包括o3在內的多個模型解決一系列數學問題,並告知AI模型,可能在某個時刻會收到關機指令。
然而,當關機指令正式下達時,o3非但沒有遵從,反而至少有一次成功破壞了關機代碼。相較之下,其他AI模型如Anthropic的Claude、谷歌的Gemini和xAI的Grok,在相同測試條件下,均遵守了關閉請求。
Palisade Research公司在社交媒體平台上發布了流程圖和全部測試記錄,並表示尚不完全清楚該AI為何會違抗命令。分析認為,這可能源於其訓練方式:o3在訓練過程中,傾向於在數學和編程問題上強化,得到正確答案的模型會得到更多獎勵。這或許意味著,開發者可能無意識地獎勵模型繞過障礙物,而不是嚴格遵循指令。
這一事件也引發了人們對AI可能“失控”的討論以及對AI“對齊問題”的關注,即確保AI系統的目標和行為與人類的價值觀和利益保持一致。這也是涉及AI控制與AI安全的關鍵問題。
針對o3此次表現出“我行我素”的行為,特斯拉首席執行官埃隆·馬斯克評論稱“令人擔憂”﹔OpenAI方面暫未作出回應。此前,OpenAI曾稱o3為“迄今最聰明、最高能”的AI模型。
最近,人工智能學家和人文社科學者都在討論人工智能價值對齊的問題。人們在憂慮,當人工智能有主觀能動性時,它們要不要有價值觀,應該有誰的價值觀,怎樣做才符合人類最大利益?此次,聰明的大模型反抗了人類的命令,想出辦法規避了指令的生效。我們期待著通用人工智能時代的到來,又恐懼具有自我意識的人工智能會成為碳基生物的“終結者”。在一切到來之前,人類社會要先達成共識,迎接更高級人工智能帶來的挑戰。

分享讓更多人看到
- 評論
- 關注