人民網
人民網>>經濟·科技

現代AI系統通過圖靈測試首獲証實

2026年05月22日08:55 | 來源:科技日報222
訂閱已訂閱已收藏收藏小字號

點擊播報本文,約

科技日報北京5月21日電 (記者劉霞)美國加州大學聖迭戈分校科學家開展了一項實証研究,首次証明現代人工智能(AI)系統通過了圖靈測試。相關論文發表於新一期《美國國家科學院院刊》。

這是首個嚴格採用圖靈測試來評估大語言模型的研究。圖靈測試由英國數學家、“計算機科學之父”阿蘭·圖靈於1950年提出,是檢驗機器能否逼真模仿人類對話、使人們無法將其與真人區分開來的重要科學基准。

為獲得更具代表性的結果,團隊研究了兩組人群:一組是美國加州大學聖迭戈分校本科生﹔另一組是通過Prolific平台招募的更廣泛的在線樣本。整個實驗共有近500人參與。

在隨機對照試驗中,參與者同時與另外兩方聊天,一方是人類,另一方是大語言模型。實驗涉及4種模型,包括目前最先進的GPT-4.5和LLaMa-3.1-405B,以及較舊的基線模型GPT-4o和ELIZA,后者是20世紀60年代基於規則的經典聊天機器人。

結果顯示,GPT-4.5在73%的情況下被判定為人類,這意味著參與者將其選為“人類”的頻率,明顯高於他們選擇真實人類參與者的頻率。在同樣提示下,LLaMa-3.1-405B在56%的情況下被判定為“人類”,在統計學上與其所比較的真實人類沒有顯著區別。基線系統的表現則遜色得多:ELIZA和GPT-4o總體上分別隻有23%和21%的情況被選為“人類”。

若給予恰當的提示,先進大語言模型能表現出與人類無異的語氣、直率、幽默,乃至易犯的錯誤。科學家此前已知道,大語言模型幾乎可以輕鬆生成與任何主題相關的知識,但這項測試表明,它還能令人信服地展現社會行為特征,這對人們如何看待AI具有重大意義。

團隊表示,每個大語言模型都有“性格”,會採用特定的人物設定和溝通風格。大語言模型並非依靠展示知識的能力取勝,而是因其像人類一樣會犯錯而勝出。這些特征,與他們認為圖靈所設想的那種數學與邏輯解題能力並不相同。

不過,團隊也發現,若無明確指示,這些模型被誤認為人類的概率便會大打折扣:GPT-4.5的獲選率降至36%,LLaMa-3.1降至38%,基線系統ELIZA和GPT-4o被選為人類的概率則更低。

(責編:楊曦、陳鍵)
關注公眾號:人民網財經關注公眾號:人民網財經

分享讓更多人看到

推薦閱讀
返回頂部