人民網
人民網>>經濟·科技

國內多數模型訓練使用中文數據佔比超60%

2025年08月19日06:09 | 來源:人民網-人民日報222
小字號

  本報北京8月18日電  (記者王雲杉)記者從國家數據局獲悉:中文數據在國內大模型的訓練性能提升方面發揮著重要作用。國內多數模型訓練使用的中文數據佔比已經超過60%,有的模型達到80%。中文高質量數據的開發和供給能力持續增強,推動我國人工智能模型性能快速提升。

  在人工智能時代,Token(通常所說的詞元)是處理文本的最小數據單元。國家數據局局長劉烈宏介紹,2024年初,我國日均Token的消耗量為1000億,截至今年6月底,日均Token消耗量已經突破30萬億,1年半時間增長了300多倍,反映了我國人工智能應用規模的快速增長。

  《 人民日報 》( 2025年08月19日 06 版)

(責編:趙欣悅、袁勃)
關注公眾號:人民網財經關注公眾號:人民網財經

分享讓更多人看到

推薦閱讀
返回頂部