人民網
人民網>>經濟·科技

如何讓AI“識破”AI?這項研究給出答案

2025年08月25日09:25 | 來源:科技日報222
小字號

隨著大模型逐漸變成學習、工作中不可或缺的生產力工具,其伴生的問題也日益凸顯。AI經常會“一本正經地胡說八道”,生成看似合理的虛假信息﹔一些人利用AI工具代寫作業甚至畢業論文,極大沖擊著學術誠信和規范﹔AI生成內容的流暢性和邏輯性越來越強,人類識別困難,但論文AI率檢測系統有待完善,論文被誤判的問題時有發生……如何精准識別AI生成內容,成為亟待解決的問題。

南開大學計算機學院媒體計算實驗室近日取得的一項研究成果,或為解決這些難題提供可行方案。該成果創新性地提出直接差異學習(DDL)優化策略,教會AI用“火眼金睛”辨別人機不同,實現AI檢測性能的巨大突破。相關成果論文已被ACM MM 2025(第33屆ACM國際多媒體會議)接收。

目前AI生成內容檢測主要有兩種路線。一種是基於訓練的檢測方法,使用特定數據訓練一個專用的分類模型﹔另一種是零樣本檢測方法,直接使用一個預訓練的語言模型並設計某種分類標准進行分類。多項研究表明,現有檢測方法在應對復雜的現實場景時面臨困境。

為何現有的AI檢測工具會“誤判”?“如果把AI文本檢測看作一場考試,那麼現有檢測方法就好比機械刷題、死記硬背答案的固定套路,難以學會答題邏輯,一旦遇到全新難題,准確率就會顯著下降。”論文第一作者、南開大學計算機學院計算機科學卓越班2023級本科生付嘉晨解釋道,“要想實現通用檢測,理論上需收集所有大模型的數據進行訓練,但這在大模型迭代飛速的今天幾乎不可能。”

讓檢測器學會“舉一反三”,提升其泛化性能,是增強AI文本檢測能力的關鍵。為此,研究團隊另辟蹊徑,提出DDL方法,通過直接優化模型預測的文本條件概率差異與人為設定的目標值之間的差距,幫助模型學習AI文本檢測的內在知識。這種方法可精准捕捉人機文本間的深層語義差異,從而大幅提升檢測器的泛化能力與魯棒性。

“使用DDL訓練得到的檢測器如同有了‘火眼金睛’,即便隻‘學習’過DeepSeek-R1的文本,也能精准識別像GPT-5這樣最新大模型生成的內容。”付嘉晨說。

團隊還提出了一個全面的測試基准數據集MIRAGE,該數據集使用13種主流的商用大模型以及4種先進的開源大模型,生成了接近10萬條“人類—AI”文本對。

“MIRAGE是目前唯一聚焦商用大語言模型檢測的基准數據集。如果說之前的基准數據集是由少且能力簡單的大模型命題出卷,那麼MIRAGE則是由17個能力強大的大模型聯合命題,形成一套高難度、又有代表性的檢測試卷。”論文通訊作者、南開大學計算機學院副教授郭春樂說。

在MIRAGE的測試結果顯示,現有檢測器的准確率從在簡單數據集上的90%驟降至約60%﹔而使用DDL訓練的檢測器仍保持85%以上的准確率。與斯坦福大學提出的AI生成文本檢測工具DetectGPT相比,使用DDL方法訓練的檢測器性能提升71.62%﹔與馬裡蘭大學、卡內基梅隆大學等共同提出的AI生成文本檢測方法Binoculars相比,性能提升68.03%。

“AIGC發展日新月異,我們將持續迭代升級評估基准和技術,致力於實現更快、更准、更低成本的AI生成文本檢測。”研究團隊負責人、南開大學計算機學院教授李重儀說。

(責編:羅知之、李楠樺)
關注公眾號:人民網財經關注公眾號:人民網財經

分享讓更多人看到

推薦閱讀
返回頂部