人民网
人民网>>经济·科技

全方位释放语言文字的数据要素价值

张盖伦
2025年04月01日08:40 | 来源:科技日报
小字号

原标题:全方位释放语言文字的数据要素价值

对语言文字,我们“日学而不察、日用而不觉”。其实,语言文字是国家重要的教育、科技、文化、经济、安全和战略资源。近日,为抢抓大语言模型迭代升级新机遇,教育部、国家语委、中央网信办印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》)。3月31日,教育部举行新闻发布会,专门对《意见》进行全面解读。

教育部语言文字信息管理司司长刘培俊介绍,《意见》明确提出,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,全方位释放语言文字在经济社会发展中的数据要素价值。在实践中,既要规范、有效、批量地将中文资源信息转化为智能数据,也要促进中文数据的规模生产、优质集成、规范治理和复用增效,实现以数字化手段构建新型中文服务体系,引领带动语言文字信息化全面发展。

为何强调数字中文?刘培俊表示,中文使命重大,数字中国建设,加大国家通用语言文字推广力度、深化中华优秀语言文化传承、增进语言文明国际交流互鉴等多项重大任务都更加需要中文数字化赋能。中文文化内涵丰富,是中国贡献给世界的重要公共文化产品,更加需要中文数字化传播。中文使用范围广泛,更加需要中文数字化学习。而且,中文数据价值突出,大规模、高质量的中文数据有利于推动中国特色大语言模型创新发展,更加需要中文数字化支撑。

刘培俊介绍,未来在技术创新应用上,要发挥自然语言处理技术支撑人工智能发展的基础作用,加快领域大语言模型应用试点,确保规范安全,示范应用;研制面向人工智能的语言资源建设、管理、应用标准,特别是语料和数据质量评价标准等。在数据资源建设上,发挥语言文字服务国家语言能力建设的战略作用,实施国家关键语料库建设计划,建设大规模中文语料库等。在关键领域赋能上,发挥信息技术赋能国家语言服务体系构建的全局优势,研制大语言模型能力素养框架(师生版),推进甲骨文数字化共享,实施中华文化优秀课程多语种数字化传播计划等。

北京大学王选计算机研究所所长汤帜指出,上世纪80年代,激光照排技术的发明,让承载中华文化的中文在全球互联网空间获得新生。当前,大语言模型技术对大规模高质量语料提出前所未有的需求,中文信息处理技术的发展从以往解决汉字输入输出的基础性问题,进阶到当前释放语言文字数据要素价值的全方位突破。

汤帜表示,加强数字中文建设将重塑发展格局,推动中文信息处理技术发展进入新阶段。语言文字将实现从“静态符号”向“动态数字资产”、从“信息载体”向“生产要素”的转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等各种任务。语言文字还将实现从符号存储到智能建模的质变,因此,要聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集。

汤帜强调,语言文字还会起到赋能全局发展的作用。新形势下,语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革,语言文字将实现与信息技术的深度融合,形成“技术突破—场景落地—生态繁荣”的良性循环,服务教育发展,助力科技创新,赋能文化传承,推动产业升级,促进社会进步。(科技日报北京3月31日电)

(责编:杨曦、陈键)
关注公众号:人民网财经关注公众号:人民网财经

分享让更多人看到

推荐阅读
返回顶部