人民網
人民網>>經濟·科技

大模型不再拼“塊頭”

——大語言模型最大能力密度隨時間呈指數級增長

2025年11月25日08:59 | 來源:科技日報222
小字號

點擊播報本文,約

如今,大模型蓬勃發展,有沒有指標來衡量AI大模型的“智力能力水平”?近日,清華大學研究團隊提出了大模型的密度法則,相關論文刊發於自然子刊《自然·機器智能》上。密度法則揭示大語言模型的最大能力密度隨時間呈指數級增長,2023年2月至2025年4月,約每3.5個月翻一倍。

計算機領域的“摩爾定律”大家已經耳熟能詳:芯片上可容納的晶體管數量,每隔一段時間就會翻一番。計算機的強大,不是因為芯片變得像房子一樣大,而是因為它在指甲蓋大小的面積上集成了天文數字的計算單元。清華大學計算機科學與技術系助理研究員肖朝軍告訴科技日報記者,大模型的智力能力水平應該也有一個指標,這就是“能力密度”。

研究的核心假設是,採用相同制造工藝、充分訓練的不同尺寸模型,其能力密度相同。正如芯片行業通過提升電路密度實現了計算設備的小型化和普惠化,大模型也在通過提升能力密度實現高效化發展。

肖朝軍說,過去,在規模法則的指引下,大家關心一個大模型的“塊頭”(參數量)有多大,越大就越智能,就像關心一個舉重運動員的體重,體重越重,力量越大。現在,密度法則從另一個視角揭示了大模型“高效發展”的規律——我們更應該關心它的“能力密度”,即每一單位“腦細胞”(參數)裡包含了多少“智慧”。“如同評價一個武林高手,看的不是他肌肉多發達,而是他一招一式裡蘊含了多少功力。”肖朝軍說。

研究團隊對51個近年來發布的開源大模型進行了系統分析,他們發現了一個重要規律:大模型的最大能力密度隨時間呈指數級增長,2023年以來平均每3.5個月翻一倍。這意味著,隨著“數據—算力—算法”的協同發展,可以用更少參數實現相同的智能水平。

團隊還給出了一些推論。比如,同能力模型的推理開銷隨時間指數級下降,同時大模型能力密度正在加速增強。ChatGPT發布前能力密度每4.8個月翻倍,而ChatGPT發布后能力密度每3.2個月翻倍,密度增強速度提升了50%。這表明隨著大模型技術的成熟和開源生態的繁榮,能力密度提升正在加速。

肖朝軍表示,從直觀上看,能力密度越高,大模型就越聰明,運行大模型所需要的算力越少,成本就越低。圍繞這一科學指引,學術界、工業界能進行多維度的技術創新,讓大模型越來越普惠。

從大模型的應用角度來說,密度法則也意味著AI正在變得越來越可用。肖朝軍介紹,隨著芯片電路密度(摩爾定律)和模型能力密度(密度法則)持續增強,此前只能在雲端部署的大模型,未來用終端芯片就裝得下、跑得動。大模型跑在終端設備上,在響應速度、用戶隱私等方面具備先天優勢,可以為用戶做得更多。

肖朝軍舉了個例子。此前大模型在智能汽車上的應用,都是“幫我打開車窗”“幫我查一下附近的餐廳”等“被動式”服務。端側模型“上車”后,通過豐富的“艙內外感知”和“意圖理解”能力,可以實現艙內外環境的多模態感知融合與主動決策閉環,驅動智能座艙從“被動響應”走向“主動服務”,讓智能浸潤每一次駕駛體驗。

記者 張蓋倫

(責編:劉橦潔、陳鍵)
關注公眾號:人民網財經關注公眾號:人民網財經

分享讓更多人看到

推薦閱讀
返回頂部