AI“模型崩潰”風險需警惕
從客戶服務到內容創作,人工智能(AI)影響了眾多領域的進展。但是,一個日益嚴重的被稱為“模型崩潰”的問題,可能會使AI的所有成就功虧一簣。
“模型崩潰”是今年7月發表在英國《自然》雜志上的一篇研究論文指出的問題。它是指用AI生成的數據集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出。
多家外媒報道稱,這不僅是數據科學家需要擔心的技術問題,如果不加控制,“模型崩潰”可能會對企業、技術和整個數字生態系統產生深遠影響。天津大學自然語言處理實驗室負責人熊德意教授在接受科技日報記者採訪時,從專業角度對“模型崩潰”進行了解讀。
“模型崩潰”是怎麼回事
大多數AI模型,比如GPT-4,都是通過大量數據進行訓練的,其中大部分數據來自互聯網。最初,這些數據是由人類生成的,反映了人類語言、行為和文化的多樣性和復雜性。AI從這些數據中學習,並用它來生成新內容。
然而,當AI在網絡上搜索新數據來訓練下一代模型時,AI很可能會吸收一些自己生成的內容,從而形成反饋循環,其中一個AI的輸出成為另一個AI的輸入。當生成式AI用自己的內容進行訓練時,其輸出也會偏離現實。這就像多次復制一份文件,每個版本都會丟失一些原始細節,最終得到的是一個模糊的、不那麼准確的結果。
美國《紐約時報》報道稱,當AI脫離人類輸入內容時,其輸出的質量和多樣性會下降。
熊德意解讀稱:“真實的人類語言數據,其分布通常符合齊普夫定律,即詞頻與詞的排序成反比關系。齊普夫定律揭示了人類語言數據存在長尾現象,即存在大量的低頻且多樣化的內容。”
熊德意進一步解釋道,由於存在近似採樣等錯誤,在模型生成的數據中,真實分布的長尾現象逐漸消失,模型生成數據的分布逐漸收斂至與真實分布不一致的分布,多樣性降低,導致“模型崩潰”。
AI自我“蠶食”是壞事嗎
對於“模型崩潰”,美國《The Week》雜志近日刊文評論稱,這意味著AI正在自我“蠶食”。
熊德意認為,伴隨著這一現象的出現,模型生成數據在后續模型迭代訓練中佔比越高,后續模型丟失真實數據的信息就會越多,模型訓練就更加困難。
乍一看,“模型崩潰”在當前似乎還是一個僅需要AI研究人員在實驗室中擔心的小眾問題,但其影響將是深遠而長久的。
美國《大西洋月刊》刊文指出,為了開發更先進的AI產品,科技巨頭可能不得不向程序提供合成數據,即AI系統生成的模擬數據。然而,由於一些生成式AI的輸出充斥著偏見、虛假信息和荒謬內容,這些會傳遞到AI模型的下一版本中。
美國《福布斯》雜志報道稱,“模型崩潰”還可能會加劇AI中的偏見和不平等問題。
不過,這並不意味著所有合成數據都是不好的。《紐約時報》表示,在某些情況下,合成數據可以幫助AI學習。例如,當使用大型AI模型的輸出訓練較小的模型時,或者當可以驗証正確答案時,比如數學問題的解決方案或國際象棋、圍棋等游戲的最佳策略。
AI正在佔領互聯網嗎
訓練新AI模型的問題可能凸顯出一個更大的挑戰。《科學美國人》雜志表示,AI內容正在佔領互聯網,大型語言模型生成的文本正充斥著數百個網站。與人工創作的內容相比,AI內容的創作速度更快,數量也更大。
OpenAI首席執行官薩姆·奧特曼今年2月曾表示,該公司每天生成約1000億個單詞,相當於100萬本小說的文本,其中有一大部分會流入互聯網。
互聯網上大量的AI內容,包括機器人發布的推文、荒謬的圖片和虛假評論,引發了一種更為消極的觀念。《福布斯》雜志稱,“死亡互聯網理論”認為,互聯網上的大部分流量、帖子和用戶都已被機器人和AI生成的內容所取代,人類不再能決定互聯網的方向。這一觀念最初隻在網絡論壇上流傳,但最近卻獲得了更多關注。
幸運的是,專家們表示,“死亡互聯網理論”尚未成為現實。《福布斯》雜志指出,絕大多數廣為流傳的帖子,包括一些深刻的觀點、犀利的語言、敏銳的觀察,以及在新背景下對新生事物的定義等內容,都不是AI生成的。
不過,熊德意仍強調:“隨著大模型的廣泛應用,AI合成數據在互聯網數據中的佔比可能會越來越高,大量低質量的AI合成數據,不僅會使后續採用互聯網數據訓練的模型出現一定程度的‘模型崩潰’,而且也會對社會形成負面影響,比如生成的錯誤信息對部分人群形成誤導等。因此,AI生成內容不僅是一個技術問題,同時也是社會問題,需要從安全治理與AI技術雙重角度進行有效應對。”
分享讓更多人看到
- 評論
- 關注