在数字经济蓬勃发展的时代背景下,数据已成为基础性资源、重要生产力和关键生产要素。习近平总书记深刻指出,数据在数字经济时代中的核心地位。近年来,随着大模型技术的不断突破,大规模高质量训练数据的投入成为了推动“以数据为中心的人工智能”迈向新阶段的关键因素。Deep Seek 系列模型训练中大量高质量推理数据集的使用,进一步凸显了高质量数据在人工智能领域的重要性。为了加速这一进程,国家数据局围绕高质量数据集建设,已经开展了一系列的工作部署。
一、高质量数据集建设的进展与挑战
在顶层设计上,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》,明确了场景需求牵引下的数据要素高质量供给和合规高效流通。在地方层面,湖北、江苏、浙江等省市积极响应,明确了高质量数据集建设的目标、时间表和激励机制。在行业层面,智源研究院发布的全球最大多行业中英双语数据集IndustryCorpus 1.0,以及中国信通院推出的首个面向行业的人工智能数据集质量评估体系,都标志着高质量数据集建设取得了积极进展。
然而,高质量数据集建设仍面临诸多挑战。首先,政府和业界对于行业高质量发展所需数据的具体形态和需求缺乏清晰认识。行业大模型数据的需求具有多样性和复杂性,要求深入理解业务场景,并在数据处理和管理上具备高度灵活性。其次,行业企业在构建高质量数据集方面缺乏经验和技术支持,传统的数据处理工具和技术无法满足大模型的需求。最后,业界对于行业数据集质量的评价标准不统一,导致无法有效获取和利用高质量数据集资源。
二、分类推动高质量数据集供给体系建设
针对上述挑战,我们需要根据急用先行、分类推进、合理使用的原则,加快高质量数据集建设。具体来说,可以分为以下三个方面:
加快行业通用类高质量数据集建设:这类数据集针对特定行业或领域,具有高度的专业性和针对性。通过覆盖行业领域专业知识,可以提高模型在行业通识领域的泛化能力,为行业应用提供有力支持。
加快行业专用类高质量数据集建设:这类数据集根据行业企业自身业务场景和需求收集,具有针对性和定制化的特点。通过定制化优化大模型算法和参数设置,可以深度挖掘内部数据价值,实现模型与业务的高度适配。
三、提升高质量数据集构建能力
推动高质量数据集建设是一项系统工程,需要系统性地加强能力建设。具体来说,可以从以下几个方面入手:
四、结语
高质量数据集是推动“人工智能+”行动的新引擎。此次高质量数据集建设工作启动会发出了动员令、吹响了集结号。相信在国家数据局的引领下,通过政、产、学、研、用多方协同,我国高质量数据集建设步伐将越来越快,为人工智能赋能实体经济注入强劲动力。让我们携手共进,共同开创高质量数据集建设的新篇章!