当前位置: 首页 > 政策法规 > 综合类
综合类

高质量数据集:赋能“人工智能+”行动的新引擎

发布时间:2025-03-14 14:31:43   浏览量:

在数字经济蓬勃发展的时代背景下,数据已成为基础性资源、重要生产力和关键生产要素。习近平总书记深刻指出,数据在数字经济时代中的核心地位。近年来,随着大模型技术的不断突破,大规模高质量训练数据的投入成为了推动“以数据为中心的人工智能”迈向新阶段的关键因素。Deep Seek 系列模型训练中大量高质量推理数据集的使用,进一步凸显了高质量数据在人工智能领域的重要性。为了加速这一进程,国家数据局围绕高质量数据集建设,已经开展了一系列的工作部署。

一、高质量数据集建设的进展与挑战

在顶层设计上,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》,明确了场景需求牵引下的数据要素高质量供给和合规高效流通。在地方层面,湖北、江苏、浙江等省市积极响应,明确了高质量数据集建设的目标、时间表和激励机制。在行业层面,智源研究院发布的全球最大多行业中英双语数据集IndustryCorpus 1.0,以及中国信通院推出的首个面向行业的人工智能数据集质量评估体系,都标志着高质量数据集建设取得了积极进展。

然而,高质量数据集建设仍面临诸多挑战。首先,政府和业界对于行业高质量发展所需数据的具体形态和需求缺乏清晰认识。行业大模型数据的需求具有多样性和复杂性,要求深入理解业务场景,并在数据处理和管理上具备高度灵活性。其次,行业企业在构建高质量数据集方面缺乏经验和技术支持,传统的数据处理工具和技术无法满足大模型的需求。最后,业界对于行业数据集质量的评价标准不统一,导致无法有效获取和利用高质量数据集资源。

二、分类推动高质量数据集供给体系建设

针对上述挑战,我们需要根据急用先行、分类推进、合理使用的原则,加快高质量数据集建设。具体来说,可以分为以下三个方面:

加快通识类高质量数据集建设:这类数据集具有广泛性和通用性,能够为企业提供丰富的训练资源和基准测试环境。通过构建公共数据集,可以促进跨行业、跨领域的数据共享和知识融合,推动行业大模型的持续进步和快速发展。

加快行业通用类高质量数据集建设:这类数据集针对特定行业或领域,具有高度的专业性和针对性。通过覆盖行业领域专业知识,可以提高模型在行业通识领域的泛化能力,为行业应用提供有力支持。

加快行业专用类高质量数据集建设:这类数据集根据行业企业自身业务场景和需求收集,具有针对性和定制化的特点。通过定制化优化大模型算法和参数设置,可以深度挖掘内部数据价值,实现模型与业务的高度适配。

三、提升高质量数据集构建能力

推动高质量数据集建设是一项系统工程,需要系统性地加强能力建设。具体来说,可以从以下几个方面入手:

完善行业数据集管理体系:编制行业数据资源目录,细化数据集的分类与分级。构建高效协同的组织架构,确保数据采集到模型应用的每一步都得到有效管理和支持。制定详尽标准,涵盖数据生产、服务、质量评估及数据集管理等方面。培养跨学科、跨专业的数据工程团队,为大模型的成功部署与持续优化奠定坚实基础。

提升行业数据集开发维护能力:着力提升数据采集汇聚、数据预处理、数据标注等关键环节的技术工具能力。制定详细的数据技术处理要求和方案,以保证不同阶段的数据分布一致性。通过高效的自动化和智能化标注技术,提高数据标注的准确性和效率。

增强行业数据集质量控制:从流程管理、质量评估和组织规范三方面对大模型数据集生产到管理的各环节进行能力规范和等级评定。设计具体规则和方法,采用自动化标注和人工抽样的方式对数据集自身质量进行前置检测,采用模型验证和消融实验的方式对数据集在大模型的应用效果进行后置检测。通过模型效果反馈进行数据集质量优化,确保数据集的高质量生产和管理。

四、结语

高质量数据集是推动“人工智能+”行动的新引擎。此次高质量数据集建设工作启动会发出了动员令、吹响了集结号。相信在国家数据局的引领下,通过政、产、学、研、用多方协同,我国高质量数据集建设步伐将越来越快,为人工智能赋能实体经济注入强劲动力。让我们携手共进,共同开创高质量数据集建设的新篇章!

|网站地图|联系我们