科技領域高質量數據集發布 夯實主流價值語料底座
222
訂閱已訂閱已收藏
收藏點擊播報本文,約
人民網北京5月10日電 (記者夏曉倫)國產大模型跑得快,更要跑得“正”。當前,人工智能訓練中最“卡脖子”的環節之一,不是算力,而是高質量、專業化、合規化的語料數據。
這一短板正在被補齊。在2026人民網數據智能伙伴會活動上,主流價值語料生態聯盟正式啟動,參與方鈦媒體發布了科技領域高質量數據集,以垂直領域權威、專業的語料資源,為AI大模型訓練注入“精神底座”的力量。
作為聚焦科技商業領域的媒體,鈦媒體此次面向聯盟開放科技領域高質量數據集及全鏈路技術支撐能力,為語料生態建設注入垂直領域的核心動能。
鈦媒體執行總編輯、首席運營官馬金男介紹,這一數據集精准聚焦TMT(科技、媒體、通信)垂直賽道,直擊當前AI訓練中科技語料專業性不足、時效性不強、版權邊界模糊等痛點,成為主流價值語料生態聯盟推動垂直領域語料標准化、規模化供給的標志性探索。
這批數據集究竟具備怎樣的特質?據介紹,它構建了圖文與視頻雙核心的多模態語料體系,兼具權威性、專業性、時效性與合規性。圖文語料庫匯聚海量科技報道、行業研報與專業評論,內容語言精准規范、標簽體系完整,富含TMT領域專業術語與結構化元數據,可完美適配中文科技商業垂直領域的語義訓練需求。視頻語料資源則囊括T-EDGE全球創新大會、數字價值峰會等獨家行業活動實錄,以及多位企業家的深度訪談內容,配套高精度轉錄文本與多模態標注,能夠直接服務於語音識別、跨模態模型訓練等核心場景。全部內容均經過專業編輯審核,版權清晰可授權,更新頻次高且緊跟數字經濟前沿動態,免費用於科技領域高質量數據集建設,並面向聯盟成員開放素材共享。
同時,這些語料可廣泛應用於大模型訓練與價值對齊、產業政策研究、輿情監測預警、知識圖譜構建、科技成果轉化分析等多元領域。
對於這一成果,中國人民大學新聞學院廣告與傳媒經濟系主任、教授、博士生導師王樹良給出了點評。他認為,在主流價值語料庫與科技語料庫的共建工作中,鈦媒體所提供的科技語料,能夠覆蓋人工智能大模型訓練、產業趨勢研判等核心應用場景。基於其在科技領域的長期積累,這些語料可為數字經濟發展、AI產業創新及科技治理現代化提供基礎數據支持,其建立的質量把控機制與實踐優化思路,也能為同類語料的標准化建設提供借鑒。
據了解,在人民日報社指導下,人民網發起建立了主流價值語料生態聯盟,旨在搭建一個“共建共享、互利共贏”的開放協作平台,成為連接政、產、學、研各界的紐帶,通過機制創新提升主流價值語料從供給、處理到應用,從標准、規則研討到達成共識的效率提升。
關注公眾號:人民網財經
分享讓更多人看到
- 評論
- 關注































微信掃一掃


第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量