近日,国家发展改革委、国家数据局、财政部、人力资源社会保障部联合印发《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》)。
《实施意见》提出,到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%,培育一批具有影响力的科技型数据标注企业,打造一批产学研用联动的创新载体,建设一批成效明显、特色鲜明的数据标注基地,形成相对完善的数据标注产业生态,构建创新要素聚集、产业链上下游联动、区域协同发展的新格局。
什么是“数据标注”?数据标注是指对图片、语音、文本、视频等数据进行处理,标记对象的特征,生成满足机器学习训练要求的可读数据编码。简单来说,就是给文本、语音、图片、视频等等各种各样的数据“打标签”,让机器读得懂、学得快、训得好。
据悉,数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。此次文件是国家层面首次对数据标注这一新兴产业进行系统谋划。
数据标注一直是人工智能技术研发中不可或缺的一环,伴随着AI应用的快速落地,数据训练需求海量增长,数据标注也摆脱了传统劳动密集型行业的局限性,向高技术含量、高知识密度和高价值等特性发展。
换而言之,培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。自动驾驶、低空经济、智能制造、智慧医疗等领域都离不开数据标注。据测算,2023年我国数据标注产业规模达800亿元左右。
2024年,“人工智能+”行动首次被写入政府工作报告,不久前召开的中央经济工作会议再次强调开展“人工智能+”行动,各行各业将不断加快探索“人工智能+”新模式的步伐。
目前,大模型已在多个行业领域实现了初步应用,并产生了明显的经济效益和社会效益。例如,中国移动基于九天通用基础大模型,研发和布局能源、政务、交通、工业、医疗、教育等40款行业大模型,已与央企、行业龙头等形成超40项大模型深度合作。
未来,大模型的应用会越来越广泛,会扩展至更多民生领域,基于公共数据的标注需求也会跟着水涨船高。要想让这些公共数据真正发挥出它们的价值,那关键就得把海量的公共数据标注好。
针对当前人工智能对于公共数据标注需求越来越多的情况,《实施意见》提出,释放公共数据标注需求,深化人工智能在政务服务、城市治理、乡村振兴等领域应用,编制公共数据标注目录,依法依规有序推动公共数据标注与开发利用。在国家层面的整体规划的引领下,数据标注已然成为驱动人工智能蓬勃发展的重要力量。