人民网
人民网>>经济·科技

吴志刚:提升数据治理效能,释放数据要素核心价值

2025年12月30日08:33 | 来源:人民数据222
小字号

点击播报本文,约

原标题:言必有数丨吴志刚:提升数据治理效能,释放数据要素核心价值

编者按:随着数据要素市场化配置改革持续深化,制度构建、价值释放与治理协同成为推动数字经济高质量发展的关键议题。在此背景下,人民网·人民数据对话专家学者、地方政府相关负责人、企业代表,共同探讨数据要素高质量发展新路径。

本期嘉宾:吴志刚 中国电子信息产业发展研究院数据领域首席专家

主持人刘畅 人民网·人民数据总编辑

数据“供得出”关键在于全流程治理与信任权限管控

人民数据:当前大家对数据的核心期待是“流得动、用得好、用起来”,而“用起来”的前提是“供出来”。如何提高平台企业、政府部门等各类主体主动供给数据的积极性?

吴志刚:“供”是数据资源开发利用的前提和基础。这就要求数据供给方首先提升数据归集管控能力,核心就是做好数据治理与盘点。而数据的动态属性增加了盘点难度,因此需要建立定期治理的习惯。其次,需要建立数据访问权限的动态调整机制,因为信任关系会随人员变动、合作调整而变化。最后,数据分级分类是有效供给的关键,需明确区分数据类型,才能在可信数据空间框架下实现精准供给。

数据驱动的数字经济发展,推动传统所有权制度产生深刻变革:未来不在于谁拥有数据,而在于谁能有效访问、使用和控制数据。

人民数据:您的分享包含两个核心要点:一是数据产生与收集全过程需伴随治理;二是信任构建与访问权限控制的重要性。

吴志刚:没错。我认为数据加工环节的核心在于对数据载体的管控权,例如进入特定空间需获得授信。“数据二十条”提出的数据资源持有权、数据加工使用权、数据产品经营权“三权分置”,正是对这一逻辑的制度回应。

以高价值数据开发利用服务美好生活

人民数据:数据领域的“冷热”指调用频率,“热数据”多来源于“冷数据”“温数据”的提炼,这是否类似“大浪淘沙”?未来数据发展的核心是不是高价值数据的开发利用?

吴志刚:完全正确。数据是描述客观事物的重要载体与工具,可分为两类:一类是记录具体状态的事实数据,另一类是通过提炼形成的抽象公式、常识等知识数据,后者正是高价值数据的核心形态。数据的独特价值在于为人类提供了无限延伸的认知与实践工具,让我们在认识世界的同时更好地改造世界。人类创造数据的终极目的是服务美好生活。

当前行业内常用“Token”作为数据计量载体,通过Token量统计数据调用情况,进而实现应用计费,像电表、水表一样,未来或许会出现专门的“数表”工具。数据资源同样遵循“二八法则”,20%的“黄金数据”具备核心价值,这类数据往往是高频复用、被反复引用的精华内容。其余80%的通用数据则是其重要基础。

以高质量数据治理破解“AI幻觉”

人民数据:数据在人工智能与大模型训练中发挥着关键作用。当前人工智能存在的“幻觉”等问题,是否与数据质量直接相关?

吴志刚:数据质量是导致人工智能产生“幻觉”的核心因素,但这一问题不能简单归结为技术问题。

数据质量是“幻觉”产生的核心诱因,但需理性区分“幻觉”类型。高质量数据是人工智能能够精准输出的基础,低质量、碎片化或有偏差的数据会直接导致“AI幻觉”。看待人工智能“幻觉”的关键在于人类能否判断这种“幻觉”是无意义的数据偏差,还是具备未来可行性的创新构想。

比数据质量更值得警惕的是“数据投毒”风险。人工智能其实也存在“三观”,其创造目的、服务对象、行为准则均由训练数据与制度约束决定。若数据掺杂恶意投毒、价值观偏差等问题,不仅会加剧“幻觉”,更会导致人工智能输出违背公序良俗的结果。

因此需要通过正向数据训练与制度约束来规范,这也是人工智能发展必须坚守的底线。

同时,破解数据质量与人工智能“幻觉”问题,也需要升级数据标注体系。“数据标注师”不应被简单视为劳动密集型工种,未来必须向知识密集型、价值密集型升级。以DeepSeek为例,其核心优势“思维链”技术,已脱离简单框选标注,转向包含大量推理与逻辑运算的机理级标注,这需要专业人才参与,通过高精度、高逻辑的标注提升数据质量,从源头遏制“幻觉”产生。

大模型存储技术上的突破,也为高质量数据训练夯实了基础。以前,人工智能发展的核心瓶颈是知识存储技术不足,无法承载海量高质量数据的训练需求;而当前大模型通过亿级参数实现了海量知识的有效存储,为高质量数据的深度训练提供了支撑,为破解“AI幻觉”、提升输出精准度奠定了技术基础。

(责编:曹淼、李源)
关注公众号:人民网财经关注公众号:人民网财经

分享让更多人看到

推荐阅读
返回顶部