加快建設人工智能高質量數據集
![](/img/2020wbc/imgs/icon_type.png)
當前,人工智能處在快速發展的關鍵時期,正在重塑經濟社會發展模式。2024年中央經濟工作會議指出,開展“人工智能+”行動,培育未來產業。數據作為人工智能發展的三大核心要素之一,是人工智能模型訓練的基礎要素,也是人工智能模型應用的核心資源,加快建設人工智能高質量數據集,對於推動“人工智能+”場景落地具有重要意義。
高質量數據集建設存在的問題
高質量數據供給是推動新一代人工智能加快發展的關鍵要素。當前,面向新一代人工智能的數據供給仍有不足,數據處理專用技術有待進一步突破,數據產業和數據生態有待豐富,高質量數據集的整體規劃和支持政策還有待完善。
首先,通用領域、垂直領域以及具身智能領域的高質量數據供給仍有不足。一方面,中文公開數據在質量和數量方面落后於英文數據。另一方面,我國公共數據開放利用程度有待提高,各地開放標准不統一,專門面向人工智能發展的高質量行業數據集仍較匱乏。具身智能領域真實交互數據採集不足,主要原因在於智能機器人與環境的交互數據獲取困難且成本高昂,同時,企業採集數據缺乏統一的參照標准。
其次,高質量數據的合成、處理和利用技術亟待提升。利用深度學習和強化學習生成高精確度、多樣化合成數據的技術在成熟度和應用范圍上急需突破。隨著社會自動化和智能化程度的不斷提高,對數據處理的要求也不斷提升,因此急需針對結構化、半結構化和非結構化數據的處理技術進行迭代優化,進一步提高數據處理效率。
再次,數據主體和商業模式發展尚不成熟。我國缺乏類似美國Databricks和Snowflake“數據+人工智能”模式的高質量數據匯聚和治理主體,具備大規模數據匯聚管理分析能力的公司數量不足。醫療、法律、保險、金融、工業、科研等多個領域的公共數據授權運營主體目前仍在培育中,數據集構建和運營利用的商業模式發展還不夠成熟。
最后,高質量數據集的專項規劃和支持政策有待完善。我國已出台一系列數據發展相關指引政策,但是面向新一代人工智能模型訓練和場景應用的高質量數據集專項規劃和支持政策尚未出台,其建設、運營、流通、利用等方面舉措有待進一步細化。在數據採集方面,各領域數據缺乏適用的標准規范﹔在數據使用方面,缺少面向大模型和具身智能模型訓練的數據共享和流通促進機制,一定程度上限制了模型能力的快速提升。
多措並舉建設高質量數據集
針對當前存在的資源、技術、模式、制度等方面問題,結合新一代人工智能發展的需要,建議發揮政府和市場的協同作用,多措並舉推進高質量數據集建設。
一是加快公共數據開放和企業數據流通,建設面向新一代人工智能的高質量數據集。建議形成部門、行業、地區共同參與的協同機制,圍繞高質量數據集建設,擴大數據供給范圍和規模,完善公共及行業數據標准,加速可信數據空間建設。面向醫療、教育、科研、法律、工業、農業、物流、金融、能源、交通等重點領域建設大數據中心及大模型行業應用創新(工程)中心,打破信息孤島,構建完備數據生態,構建高質量數據集,提升垂直領域人工智能模型能力。著眼自動駕駛、具身智能等未來產業需求,開放相關公共數據,制定行業數據標准,探索企業間數據流通機制,鼓勵企業和研究機構創建高質量行業數據集。
二是圍繞建設行業高質量數據集關鍵技術問題加大攻關力度。面向數據合成和處理,加快開發數據合成、數據治理的關鍵共性技術﹔面向數據流通匯聚,大力推廣隱私計算、區塊鏈等技術﹔面向“數據+人工智能”應用模式,著力開發數據管理技術,探索新型模型結構和訓練架構。鼓勵面向人工智能的數據產品、數據服務企業牽頭承擔國家重大項目,開展應用基礎研究和關鍵核心技術攻關。推動產學研合作和創新聯合體建設,打造數據技術、產品和服務深度融合的新型合作模式。面向重點場景,打造數據技術“測試場”,提供真實數據環境、模擬應用場景,建設中試基地,吸引企業、高校和科研機構參與數據技術的創新和驗証,加速新技術推廣和應用。
三是引導企業和商業模式創新,構建人工智能數據產業生態。大力培育人工智能數據資源、技術、服務、應用、安全、基礎設施等多領域企業,重點建設面向人工智能行業的數據產業創新平台。鼓勵企業基於“數據+人工智能”探索多領域商業模式,支持企業與各方合作,打造基於高質量數據集的產業創新鏈和生態系統。鼓勵企業探索大模型和具身智能應用場景,驅動數據產業發展。支持模型應用、模型開發、數據服務、數據產品等相關企業組建創新聯合體,開發高質量數據集,發展“數據即服務”“知識即服務”“模型即服務”等新業態。
四是加大人工智能高質量數據集建設政策支持力度。面向新一代人工智能技術開發和應用發展需求,完善數據資源構建體系,培育數據產業,支持數據技術發展,系統推進高質量數據集建設,強化行業應用。統籌中央和地方財政資金、產業引導基金和各類政策性投資,加大對高質量數據集建設的投入。鼓勵金融機構創新產品和服務,增加對數據相關企業的融資支持。引導社會資本有序參與人工智能高質量數據集的開發利用。
(作者系中國科學院科技戰略咨詢研究院研究員)
![關注公眾號:人民網財經](/NMediaFile/2022/0801/MAIN202208010936066173860781061.jpg)
分享讓更多人看到
熱門排行
![微信掃一掃
提供新聞線索](/NMediaFile/2022/0801/MAIN202208010935511458538308755.jpg)
提供新聞線索
- 評論
- 關注