国家数据局:中文数据在大模型训练中的占比超60%,部分模型更是高达80%!

共计 1232 个字符,预计需要花费 4 分钟才能阅读完成。

在8月14日,国务院新闻办公室召开了一场关于“高质量完成‘十四五’规划”的主题新闻发布会。

会上,国家发展改革委员会的党组成员及国家数据局局长刘烈宏指出,算力可以被视作骨架,算法则如同神经,而数据则是血液。数据作为人工智能发展的三大核心要素之一,在推动“人工智能+”的进程中起着至关重要的作用,特别是高质量数据集的构建更是不可或缺。例如,在医疗健康领域,通过标注过的医学影像构建高质量数据集后,模型在疾病诊断上的准确率能够提升超过15%。

国家发展改革委党组成员、国家数据局局长刘烈宏

他进一步解释道,进入人工智能时代后,Token,即通常所说的词元,成为文本处理的最基本数据单元,类似于互联网时代的“流量”。到2024年初,我国的日均Token消耗量达到了1000亿,而截至今年6月底,这一数字已经突破了30万亿,短短一年半的时间内增长了超过300倍,这反映出我国人工智能应用的规模正在迅速扩大。

刘烈宏强调,我国人工智能的迅猛发展与国家对数据工作的高度重视密切相关。我国是全球首个将数据视为生产要素的国家,采取多种措施促进数据资源的开发与利用。通过推动高质量数据的供给,出台相关政策文件,多个部门联合推动相关工作。同时,数据局指导全国数据标准化技术委员会制定了相应的标准与技术文件,并组织开展高质量数据集的先行试点及典型案例征集,分行业和领域树立了一批成功的解决方案。

截至今年6月底,我国已经建立的高质量数据集数量超过了3.5万个,总体积超过400PB(1PB大约可以存储5亿张2MB的高清照片,400PB的总量接近中国国家图书馆数字资源总量的140倍)。人工智能模型的训练也带动了数据交易需求的增长,截止到今年6月底,各地高质量数据集的累计交易额接近40亿元,挂牌的高质量数据集总规模达到了246PB。例如,北京的数交所中,高质量数据集的交易比例从去年的10%上升至目前的近80%。其他城市如上海、天津、安徽等地也在试点“数据语料作价入股”等新模式,鼓励企业将高质量数据集转化为股权投资于相关公司。高质量数据集的发展依赖于数据标注产业的支持,目前在成都、沈阳、合肥等地设立了7个数据标注基地,以助力高质量数据集的建设。

刘烈宏还提到,中文数据在国内大模型训练性能提升中发挥了重要作用。经过一段时间的努力,国内大多数模型的训练中使用的中文数据占比已经超过了60%,部分模型更是达到了80%。中文高质量数据的开发与供给能力持续提升,推动了我国人工智能模型性能的迅速提升。下一步,国家将通过系统化布局,持续推进高质量数据集的建设,力求在具身智能、低空经济、生物制造等重点领域形成数据高地。

红星新闻首席记者 吴阳 北京报道

编辑 郭宇 责编 官莉

(下载红星新闻,报料有奖!)

来源:今日头条
原文标题: 国家数据局:国内多数大模型训练使用的中文数据占比已超 60%,有的模型达到 80% – 今日头条
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-03发表,共计1232字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!