人民網
人民網>>經濟·科技

人民網“主流價值語料庫”入選國家數據局“高質量數據典型案例”

2025年10月11日15:55 | 來源:人民網222
小字號

點擊播報本文,約

人民網北京10月11日電 (記者趙竹青)近日,人民網依托傳播內容認知全國重點實驗室建設的“主流價值語料庫”,入選國家數據局高質量數據集典型案例。10月10日,國家數據局官方微信公眾號對該案例進行了專題推介。

語料庫如同人工智能的“教材”,深刻影響著人工智能的政治立場、價值導向和倫理邊界。人民網主流價值語料庫主要圍繞習近平新時代中國特色社會主義思想和中國式現代化涉及的經濟、政治、文化等十幾個領域,依托黨報黨網長期建設形成的新聞資訊、理論評論、政策法規和科普知識等優質資源,經科學採樣、歸集、清洗標注、定制、風控等環節,精心打磨基礎語料、圖文語料、重點領域語料、問答語料、事實語料、風控語料等六類語料,相關成果在多家主流國產大模型廠家得到應用驗証。

截至目前,主流價值語料庫總體規模超過300TB,其中基礎語料超過300億字、問答語料超過30萬對,是國內規模最大、內容最權威的主流價值語料庫。

人民網主流價值語料庫的建設具有三大創新亮點:

一是高質量語料建設范式創新。針對大模型面臨的瓶頸問題,人民網全員下足“笨功夫”,人工設問、人工作答、三審三校。結合大模型、自然語言處理等多種前沿技術歸集、清洗、標注、風控,以“笨功夫”“巧功夫”的有機結合推動高質量語料的高效建設。

二是高質量語料技術體系創新。依托傳播內容認知全國重點實驗室的技術、算力與數據資源,研究基於大模型與專有模型的語料數據自動分類、精細標注與體系化技術,搭建面向主流價值語料處理的全棧式語料處理工具鏈和可控共享服務平台。

三是高質量語料智能生產創新。凝練新聞、政策、著作、流行語等素材規律,構建適配多領域的專業語料庫和語料生成大模型,結合人工經驗對輸出內容進行多維度糾偏提質。

2025年1月,人民網主流價值語料庫在中國網絡空間安全協會建設的中文互聯網語料資源平台發布。目前,人民網正與多地省級媒體開展共建共享合作,並積極參與北京、上海等地的語料聯盟建設,持續推動主流價值語料在更廣范圍的深度應用與協同發展。

(責編:趙竹青、呂騫)
關注公眾號:人民網財經關注公眾號:人民網財經

分享讓更多人看到

推薦閱讀
返回頂部