打開

首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
人工智能
人民網客戶端
網站無障礙
舉報
登錄

退出

人民網>>經濟·科技

自回歸“統一”多模態中國大模型登上《自然》

2026年01月30日10:01 | 來源：人民網222

訂閱已訂閱已收藏

收藏

小字號

點擊播報本文，約

人民網北京1月30日電（記者趙竹青）1月28日，智源多模態大模型成果“通過預測下一個詞元進行多模態學習的多模態大模型”上線國際頂級學術期刊《自然》。這是我國科研機構主導的大模型成果首次在《自然》正刊發表。

2018年以來，GPT採用“預測下一個詞元（Next-token prediction，NTP）”的自回歸路線，實現了語言大模型重大突破，開啟了生成式人工智能浪潮。“預測下一個詞元”徹底改變了語言模型，促成了如ChatGPT等突破性成果，並引發了關於通用人工智能（AGI）早期跡象的討論。然而，其在多模態學習中的潛力一直不甚明朗。多模態模型主要依賴對比學習、擴散模型等專門路線，自回歸路線是否可以作為通用路線統一多模態？一直是未解之謎。

智源此次提出的Emu3模型，基於“預測下一個詞元”的全新多模態模型，將圖像、文本和視頻統一離散化到同一個表示空間中，並從零開始，在多模態序列混合數據上聯合訓練一個單一的Transformer架構‌。這項成果表明，隻採用自回歸路線，就可以統一多模態學習，訓練出優秀的原生多模態大模型。

《自然》編輯點評，Emu3僅基於“預測下一個詞元”，實現了大規模文本、圖像和視頻的統一學習，其在生成與感知任務上的性能可與使用專門路線相當，這一成果對構建可擴展、統一的多模態智能系統具有重要意義。

(責編：趙竹青、呂騫)

關注公眾號：人民網財經

關注公眾號：人民網財經

分享讓更多人看到

推薦閱讀

我國超百G星地激光通信業務化應用實驗取得成功: 　　人民網北京1月30日電（記者趙竹青）近日，中國科學院空天信息創新研究院（空天院）成功開展超百G星地激光通信業務化應用實驗，通信速率達到120吉比特每秒（Gbps）。實驗結果表明，通信鏈路穩定、下傳數據質量優良，這是該團隊繼2023年10Gbps、2025年60Gbps之后取得的又一重大突破，標志著我國星地激光通信業務化應用能力邁上一個新台階。…

“滑梯”模型揭示脂肪消化新機制: 　　人民網北京1月30日電（記者趙竹青）人體消化脂肪離不開膽汁酸的肝腸循環，而其中關鍵轉運蛋白OSTα/β的組裝與工作機制長期不明。針對這一科學難題，中國科學院物理研究所姜道華團隊聯合北京大學雷曉光團隊等多家單位，重構出OSTα/β高分辨率冷凍電鏡結構，首次揭示了OSTα/β新穎的組裝方式及轉運機制。…

客戶端下載

熱門排行

微信掃一掃提供新聞線索

微信掃一掃
提供新聞線索

人民日報社概況| 關於人民網| 報社招聘| 招聘英才| 廣告服務| 合作加盟| 版權服務| 數據服務| 網站聲明| 網站律師| 信息保護| 聯系我們

人民日報違法和不良信息舉報電話：010-65363263 舉報郵箱：jubao@people.cn

人民網服務郵箱：kf@people.cn 違法和不良信息舉報電話：010-65363636 舉報郵箱：rmwjubao@people.cn

互聯網新聞信息服務許可証10120170001 | 增值電信業務經營許可証B1-20060139 | 廣播電視節目制作經營許可証（廣媒）字第172號 | 京ICP備12004265號-13

信息網絡傳播視聽節目許可証0104065 | 網絡文化經營許可証京網文[2023]4961-141號 | 網絡出版服務許可証（京）字121號 | 京ICP証000006號 | 京公網安備11000002000008號

人民網股份有限公司版權所有，未經書面授權禁止使用
Copyright © 1997-2026 by www.people.com.cn. all rights reserved

評論
分享
關注
微信微博快手
第一時間為您推送權威資訊

報道全球傳播中國

關注人民網，傳播正能量

推薦閱讀

打開客戶端體驗更多服務打開

返回頂部