人民網
人民網>>經濟·科技

自回歸“統一”多模態 中國大模型登上《自然》

2026年01月30日10:01 | 來源:人民網222
訂閱已訂閱已收藏收藏小字號

點擊播報本文,約

人民網北京1月30日電 (記者趙竹青)1月28日,智源多模態大模型成果“通過預測下一個詞元進行多模態學習的多模態大模型”上線國際頂級學術期刊《自然》。這是我國科研機構主導的大模型成果首次在《自然》正刊發表。

2018年以來,GPT採用“預測下一個詞元(Next-token prediction,NTP)”的自回歸路線,實現了語言大模型重大突破,開啟了生成式人工智能浪潮。“預測下一個詞元”徹底改變了語言模型,促成了如ChatGPT等突破性成果,並引發了關於通用人工智能(AGI)早期跡象的討論。然而,其在多模態學習中的潛力一直不甚明朗。多模態模型主要依賴對比學習、擴散模型等專門路線,自回歸路線是否可以作為通用路線統一多模態?一直是未解之謎。

智源此次提出的Emu3模型,基於“預測下一個詞元”的全新多模態模型,將圖像、文本和視頻統一離散化到同一個表示空間中,並從零開始,在多模態序列混合數據上聯合訓練一個單一的Transformer架構‌。這項成果表明,隻採用自回歸路線,就可以統一多模態學習,訓練出優秀的原生多模態大模型。

《自然》編輯點評,Emu3僅基於“預測下一個詞元”,實現了大規模文本、圖像和視頻的統一學習,其在生成與感知任務上的性能可與使用專門路線相當,這一成果對構建可擴展、統一的多模態智能系統具有重要意義。

(責編:趙竹青、呂騫)
關注公眾號:人民網財經關注公眾號:人民網財經

分享讓更多人看到

推薦閱讀
返回頂部