自回歸“統一”多模態 中國大模型登上《自然》
2026年01月30日10:01 | 來源:人民網
222
222
訂閱已訂閱已收藏
收藏點擊播報本文,約
人民網北京1月30日電 (記者趙竹青)1月28日,智源多模態大模型成果“通過預測下一個詞元進行多模態學習的多模態大模型”上線國際頂級學術期刊《自然》。這是我國科研機構主導的大模型成果首次在《自然》正刊發表。
2018年以來,GPT採用“預測下一個詞元(Next-token prediction,NTP)”的自回歸路線,實現了語言大模型重大突破,開啟了生成式人工智能浪潮。“預測下一個詞元”徹底改變了語言模型,促成了如ChatGPT等突破性成果,並引發了關於通用人工智能(AGI)早期跡象的討論。然而,其在多模態學習中的潛力一直不甚明朗。多模態模型主要依賴對比學習、擴散模型等專門路線,自回歸路線是否可以作為通用路線統一多模態?一直是未解之謎。
智源此次提出的Emu3模型,基於“預測下一個詞元”的全新多模態模型,將圖像、文本和視頻統一離散化到同一個表示空間中,並從零開始,在多模態序列混合數據上聯合訓練一個單一的Transformer架構。這項成果表明,隻採用自回歸路線,就可以統一多模態學習,訓練出優秀的原生多模態大模型。
《自然》編輯點評,Emu3僅基於“預測下一個詞元”,實現了大規模文本、圖像和視頻的統一學習,其在生成與感知任務上的性能可與使用專門路線相當,這一成果對構建可擴展、統一的多模態智能系統具有重要意義。
(責編:趙竹青、呂騫)
關注公眾號:人民網財經
分享讓更多人看到
- 評論
- 關注
推薦閱讀
打開客戶端體驗更多服務
打開































微信掃一掃


第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量