打開

首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
人民銳評
互動
觀點
- 社論
- 本報評論員
- 任仲平
- 任平
- 仲音
- 人民論壇
- 人民時評
- 今日談
- 望海樓
- 金社平
- 寰宇平
- 鐘聲
- 和音
- 金台隨筆
- 每周經濟評論
- 暖聞熱評
- 國際論壇
- 人民網觀點
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
人工智能
客戶端
無障礙
舉報
登錄

退出

人民網>>經濟·科技

現代AI系統通過圖靈測試首獲証實

2026年05月22日08:55 | 來源：科技日報222

訂閱已訂閱已收藏

收藏

小字號

點擊播報本文，約

科技日報北京5月21日電（記者劉霞）美國加州大學聖迭戈分校科學家開展了一項實証研究，首次証明現代人工智能（AI）系統通過了圖靈測試。相關論文發表於新一期《美國國家科學院院刊》。

這是首個嚴格採用圖靈測試來評估大語言模型的研究。圖靈測試由英國數學家、“計算機科學之父”阿蘭·圖靈於1950年提出，是檢驗機器能否逼真模仿人類對話、使人們無法將其與真人區分開來的重要科學基准。

為獲得更具代表性的結果，團隊研究了兩組人群：一組是美國加州大學聖迭戈分校本科生﹔另一組是通過Prolific平台招募的更廣泛的在線樣本。整個實驗共有近500人參與。

在隨機對照試驗中，參與者同時與另外兩方聊天，一方是人類，另一方是大語言模型。實驗涉及4種模型，包括目前最先進的GPT-4.5和LLaMa-3.1-405B，以及較舊的基線模型GPT-4o和ELIZA，后者是20世紀60年代基於規則的經典聊天機器人。

結果顯示，GPT-4.5在73%的情況下被判定為人類，這意味著參與者將其選為“人類”的頻率，明顯高於他們選擇真實人類參與者的頻率。在同樣提示下，LLaMa-3.1-405B在56%的情況下被判定為“人類”，在統計學上與其所比較的真實人類沒有顯著區別。基線系統的表現則遜色得多：ELIZA和GPT-4o總體上分別隻有23%和21%的情況被選為“人類”。

若給予恰當的提示，先進大語言模型能表現出與人類無異的語氣、直率、幽默，乃至易犯的錯誤。科學家此前已知道，大語言模型幾乎可以輕鬆生成與任何主題相關的知識，但這項測試表明，它還能令人信服地展現社會行為特征，這對人們如何看待AI具有重大意義。

團隊表示，每個大語言模型都有“性格”，會採用特定的人物設定和溝通風格。大語言模型並非依靠展示知識的能力取勝，而是因其像人類一樣會犯錯而勝出。這些特征，與他們認為圖靈所設想的那種數學與邏輯解題能力並不相同。

不過，團隊也發現，若無明確指示，這些模型被誤認為人類的概率便會大打折扣：GPT-4.5的獲選率降至36%，LLaMa-3.1降至38%，基線系統ELIZA和GPT-4o被選為人類的概率則更低。

(責編：楊曦、陳鍵)

關注公眾號：人民網財經

關注公眾號：人民網財經

分享讓更多人看到

客戶端下載

熱門排行

微信掃一掃提供新聞線索

微信掃一掃
提供新聞線索

人民日報社概況| 關於人民網| 報社招聘| 招聘英才| 廣告服務| 運營服務| 合作加盟| 版權服務| 數據服務| 網站聲明| 網站律師| 信息保護| 聯系我們

人民日報違法和不良信息舉報電話：010-65363263 舉報郵箱：jubao@people.cn

人民網服務郵箱：kf@people.cn 違法和不良信息舉報電話：010-65363636 舉報郵箱：rmwjubao@people.cn

互聯網新聞信息服務許可証10120170001 | 增值電信業務經營許可証B1-20060139 | 廣播電視節目制作經營許可証（廣媒）字第172號 | 京ICP備12004265號-13

信息網絡傳播視聽節目許可証0104065 | 網絡文化經營許可証京網文[2023]4961-141號 | 網絡出版服務許可証（京）字121號 | 京ICP証000006號 | 京公網安備11000002000008號

人民網股份有限公司版權所有，未經書面授權禁止使用
Copyright © 1997-2026 by www.people.com.cn. all rights reserved

評論
分享
關注
微信微博快手
第一時間為您推送權威資訊

報道全球傳播中國

關注人民網，傳播正能量

推薦閱讀

打開客戶端體驗更多服務打開

返回頂部