数据标注,还是苦力活么?
2025-06-12 21:31:33
  • 0
  • 0
  • 0

4月29日,国家数据局在第八届数字中国建设峰会上发布了《数据标注优秀案例集》,从全国417个申报案例中严格遴选出47个代表性优秀案例,覆盖全国29个省、自治区、直辖市及计划单列市、新疆生产建设兵团。

数据猿梳理发现,本次发布的数据标注优秀案例,涵盖了数据标注技术创新、行业赋能、标准应用、生态培育、人才培养等五个方向。不仅展示了我国数据标注领域的最新成果和实践经验,也为行业进一步发展提供了有益参考和借鉴。

据统计,在发布的最终优秀案例集中,其中入选行业赋能方向案例最多,占了16项;技术创新方向其次,占了15项;人才培养方向案例10项;生态培育方向案例5项;标准应用方向案例1项。

47个优秀案例各方向成果展示

截图来自国家数据局

《数据标注优秀案例集》

☆数据标注优秀案例名单如下:

1.多模态医学影像智能数据标注平台

2.多模态数据智能标注与管理平台

3.AI助力数据标注产业发展新生态

4.时空智能数据标注标准化实践

5.打造数据标注产业 助力县域人才振兴

6.农村集体土地高质量时空数据集多源协同标注

7.数据标注赋能电商产业效能提升

8.汽车行业多模态数据融合人机协同智能化标注

9.智能标注闭环体系重塑AI数据工程

10.数据标注政产教融合人才培养

11.“政校企共建 产教训融合”数据标注人培模式

12.AGI智能化时代的AI数据标注平台

13.AI手语翻译数据标注赋能无障碍信息建设

14.产教融合医学影像数据标注人才创新培养

15.ADS数据标注与PAI平台赋能自动驾驶创新提效

16.大模型驱动的数据自主标注智能服务

17.SIFT技术引领全球大规模智能医学影像数据标注

18.面向深度学习的遥感影像建筑半自动数据标注

19.数据标注平台工具的创新实践

20.深挖政务热线数据标注产业赋能基层治理新场景

21.小语种数据标注特色创新模式

22.数据标注平台 赋能AI产业高质量发展

23.深挖数据处理价值构建城市级数据标注产业生态

24.铁塔视频数据标注赋能多领域智慧监测

25.多模态数据自动化标注与增强平台

26.数据标注赋能油气勘探地物信息智能解译

27.高质量多模态医疗AI训练数据标注设施建设

28.无人机视角下人居环境数据集数据标注

29.点-线-面多粒度遥感大规模基准数据集标注

30.矿山数工—数据标注赋能矿山行业高质量发展

31.无人机影像数据标注赋能低空经济发展

32.数据标注筑基高质量数据集

33.数据标注专业人才产学融合培养平台

34.场景驱动高质量垂类数据标注人才培养

35.4D-BEV上亿点云标注系统

36.视觉大模型自动标注一站式生产运营

37.中医药行业大模型数据标注

38.高质量自动驾驶数据集标注与应用

39.数据标注创新引领电力行业数智转型

40.建设人工智能数据标注实训基地,打造人才培养高地

41.“AI+产教融合”助力数据标注高技能人才培养

42.3D点云数据标注产教融合人才培养

43.热带亚热带典型地物空天遥感样本标注

44.产教融合创新实践 赋能数据标注人才培养

45.数智引擎:产教融合型数据标注人才培养

46.AI数据标注助力中医药领域高质量发展

47.云藏搜索引擎藏文信息处理数据标注

47个案例一览,有哪些特色与亮点?

什么是数据标注?为什么需要数据标注?

数据标注是人工智能训练过程中的关键环节,通俗来说,就是教AI认识世界——通过标记数据的特征,让AI理解“这是什么”。具体来看,指通过人工或半自动方式为原始数据(如图像、文本、语音、视频等)添加结构化标签,使其成为机器学习模型可识别的训练样本的过程。可以说,没有标注,AI寸步难行,正是标注质量直接决定AI的“智商”。

比如,在医疗领域,医生在肺部CT影像上用不同颜色标注不同的病症,红色为恶性肿瘤、绿色区域标注为良性结节、白色轮廓标注为器官边界……训练后的AI能自动标记新患者的CT片,辅助医生快速定位病灶,实现效率翻倍。

此前,有报道称,目前市场上有1%的数据能被收集保存下来,同时其中有90%数据是非结构化数据,这些非结构化的数据只有经过清洗与标注才能被唤醒价值,这就产生了源源不断的清洗与标注需求。

值得一提的是,此次国家数据局发布的47个优秀案例,集中展示了我国先进的标注技术和方法,反映中国数据标注产业的创新图谱,涉及多个领域和行业,以及国内多个地区。这些案例主要涵盖了数据标注技术创新、行业赋能、标准应用、生态培育、人才培养等五个方向,下面我们就从这五个方面来展开分析,详细了解一些典型的案例及其具体情况和意义。

1.数据标注赋能行业:填补空白,建立标注规范

从行业分布来看,这47个案例主要分布在医疗影像、自动驾驶、电商产业、遥感影像、人才培养教育、人工智能与大数据、行业赋能与创新、小语种与多语种、特定行业应用等领域。

例如,数据标注赋能医疗健康领域。以排名首位的“多模态医学影像智能数据标注平台”为例,该平台由沈阳东软智能医疗科技研究院有限公司等单位开发。该项目创新提出医学影像分割大模型MISM等数据标注关键技术,研发集数据、模型、工具、场景为一体的医学影像智能数据标注平台,实现标注工具自主可控及国产化替代,标注效率提升两个数量级(100倍)以上,质量提升30%且成本降低60%以上。该平台抢占自主可控的数据标注技术高地,建立医学影像标注“中国标准”。

整体框架(截图来自国家数据集)

高质量自动驾驶数据集标注与应用。高质量的数据集对于自动驾驶技术的发展至关重要。这些数据集不仅提升了自动驾驶系统的感知能力,还促进了技术的标准化,降低了研发成本,支持了多种任务的完成,推动了自动驾驶技术的全面发展。

比如,在入选的优秀案例中包含了“4D-BEV上亿点云标注系统”、“高质量自动驾驶数据集标注与应用”等5个案例。如“4D-BEV上亿点云标注系统”、“高质量自动驾驶数据集标注与应用”,专注于解决复杂环境下的三维空间标注问题,这些案例普遍采用点云连续帧标注、多传感器融合标注等技术,满足自动驾驶高精度感知需求。

数据标注赋能油气勘探。标注技术应用于垂直行业的智能化转型,这些案例通常需要深厚的行业知识沉淀,标注对象具有高度专业化特征。在油气勘探领域,准确的地物信息解译对于资源的发现和开发至关重要。通过高效的数据标注技术,不仅提高了勘探的效率和精度,还降低了勘探成本,推动了油气勘探行业的数字化转型和智能化升级。

典型案例如第26号,“数据标注赋能油气勘探地物信息智能解译”。在这个案例中,传统人工标定面临海量地物与复杂地形挑战,存在效率低、错漏率高难题。通过基于多源地理数据融合的智能解译系统,并结合AI算法与图像处理技术构建了自动化翻译平台,累计处理地物8900万个,解译精度达90%,效率较人工提升20倍。经测算,年度可节约成本1.89亿元,为勘探智能化转型提供核心技术支撑,显著推动行业降本增效。

数据标注赋能油气勘探 数据融合过程示意图

(来源:国家数据局)

在乡村振兴领域,如第6号“农村集体土地高质量时空数据集多源协同标注”,该项目通过多源协同标注技术,为农村土地确权和数字化管理提供数据基础。

2.展现强大自研能力:多模态、大模型加持

在技术创新方面,很多入选案例都展现了强大的技术自研能力,如利用人工智能、机器学习等技术实现智能标注,提高标注效率和质量,降低人工成本。值得一提的是,有多个案例都提到了多模态数据标注,这也展示了当前数据标注技术发展的一个重要趋势。比如第一个案例“多模态医学影像智能数据标注平台”,它实现了胸部疾病的批量化智能检测与标注,体现了技术的高效性,又如第二个案例“多模态数据智能标注与管理平台”。

此外,还有大模型赋能标注,典型案例如第16号案例“大模型驱动的数据自主标注智能服务”和第36号案例“视觉大模型自动标注一站式生产运营”,通过预训练大模型实现标注过程的自动化迭代,大幅降低人工依赖。这些平台通过打通算法平台与标注平台的数据交互流水线,实现数据自驱的多模态标注算法快速迭代,形成AI数据生产的新质生产力。

3.培养专业数据标注师,解决产业脱钩问题

数据标注是人工智能发展的核心基石之一,贯穿于算法训练、模型评估、迭代优化以及场景应用等多个环节,数据标注作为新兴产业,存在人员需求大、劳动密集强度高、职业技能迭代快、产教融合深度不足、政府扶持力度不够等现状。

数据猿梳理发现,此次入选的案例有的探索出多种创新路径,来培养专业的数据标注人才。如,第11号案例的“政校企共建 产教训融合”数据标注人培模式、第34号案例“场景驱动高质量垂类数据标注人才培养”。

入选单位提到,在第11号案例的“政校企共建 产教训融合”数据标注人培模式中,为解决数据标注人才培养痛点,政府、学校、企业共建温州数据学院,将“生产、教学、培训”相融合,实现了“技能培训、人才就业、效益产值”共赢,打造了数据标注人才培养的新范式。

“政校企共建 产教训融合”
数据标注人培模式的整体框架

又比如第34号案例,大连金慧科技的“场景驱动高质量垂类数据标注人才培养”案例,通过将垂类业务场景、自主研发的大模型智能标注平台与人才培养体系结合,推出场景化人机协同培养模式,解决高质量垂类多模态数据标注专业人才短缺问题,已在多个业务基地落地实施,累计培养逾1万名专业标注人员,有效缩短人才培养周期20%,提升培训效率40%,培训后准确率提升8%。

但具体来看,在人才培养这个方面,不同的案例也会采用不同的路径和方法。比如,有的侧重于政产学研合作,如数据标注政产教融合人才培养案例;有的注重实践能力培养,如人工智能训练师岗课赛证综合育人模式案例,这些不同的人才培养模式满足了不同地区、不同企业和不同人群对数据标注人才的需求。

4.标准应用

比如,第4号案例“时空智能数据标注标准化实践”,针对时空数据标注不统一的问题,武汉大学牵头制定国际开放地理信息协会OGC TrainingDML-AI标准,并转为ISO标准(ISO 19178-1)和国家标准,涵盖时空数据标注概念模型、编码等标准规范。

地理人工智能数据标注标准化实践系统图

5.生态培育初见成效

数据标注产业生态培育过程中,面临技术薄弱、业务匮乏、人才不足等挑战。一些案例通过构建数据标注产业生态,整合产业链上下游资源,实现了数据标注与其他产业的协同发展。

如昆玉公司打造“1+N”数据产业群,形成覆盖数据采集、清洗、标注、训练全产业链的数据服务能力,成功孵化4家数据标注企业、7个项目工作室,输出123类产品数据集。

此外,还有第3号案例,“AI助力数据标注产业发展新生态”中,百度智能云(山西)科技有限公司通过政企协同,并利用技术、生态和品牌优势,结合山西转型综合改革示范区的产业政策,形成叠加效应,推动产业链形成。标注效率提升超60%,累计产值超15亿元,孵化企业超50家,带动就业与人才培养超3万人。

八仙过海,不同区域、行业、
技术的实践路径有何不同?

通过47个案例的分析,也可以看到不同区域基于资源禀赋和产业基础,探索出各具特色的发展道路。从不同的区域特色发展、不同的技术路径来分析,可以看出:

不同区域具有不同的发展模式。比如:

西部地区:核心特色是就业优先。如,新疆昆玉案例针对“兵团数据标注产业空白、人才短缺、技术依赖内地”问题,通过自研技术、校企合作、标准化管理等措施,聚焦小语种标注、自动驾驶、无人零售等领域,累计解决当地就业问题。

东部地区:侧重前沿技术与高端制造技术的融合。比如,广东入选案例如“无人机视角下人居环境数据集数据标注”和“SIFT技术引领全球大规模智能医学影像数据标注”,展现技术密集型发展路径,这些案例更关注前沿技术在高端制造和智慧城市中的应用。

东北地区:侧重与数据标注赋能传统转型模式,将技术自主创新赋能传统医疗,以东北地区东软医疗影像标注平台为代表,依托传统医疗产业优势,深耕专业医疗数据标注领域,实现老工业基地的数字化转型

民族地区:侧重在文化保护模式,用数据标注来加持文化保护,比如第47号案例中“云藏搜索引擎藏文信息处理数据标注”,专注于少数民族语言和文化保护,填补多语言标注领域空白。

从不同的技术路径来看,获选案例采用了不同的技术路径和方法。有的侧重于算法研发,如多任务分类与分割算法、大模型驱动等;有的注重工具和平台的创新,如智能标注平台、4D-BEV上亿点云标注系统等,有的在数据增强等技术上进行了创新实践。

同时,不同行业、不同应用领域差异化较大。如,不同案例在数据标注的应用领域各有侧重。有些专注于特定行业的深度应用,如医疗影像数据标注、交通流量数据标注等;有的则涵盖了多个领域的综合应用,如多模态数据标注平台在医疗、电商、自动驾驶等多个领域应用。这种差异化的特点反映了数据标注行业在不同领域的多样化需求和发展潜力。

透过数据看行业:
对我国数据标注有哪些启示?

综上,我们可以看到,技术创新是数据标注行业发展的核心动力,在很多优秀案例中,都展示了强大的自主研发能力。这表明,未来数据标注行业还需不断探索和应用新技术,如深度学习、人工智能、自动化工具等,以提高标注的准确性和效率。

此外,自动化标注技术的出现,显著提高了标注效率和准确性,虽然目前还不能完全取代人工标注,但已经大幅减少了人工工作量,并有望在未来实现更高程度的智能化。但我们已明显看到,随着生成式人工智能和大模型技术的突破,数据标注已从传统的人力密集型向AI辅助自动化转型。

未来,数据标注技术还将扩展到各个行业进一步深化,推动整个行业的效率提升和成本降低。随着人工智能进入多元行业和场景落地阶段,自动驾驶、医疗、法律、金融等有一定专业性要求的垂直化场景将成为主要需求,从而带动行业进一步朝着垂直化、定制化方向发展。

当然,我们也会看到,未来数据标注行业需要建立和推广更多的标准,以确保数据标注的质量和一致性,同时也便于数据的共享和利用。

有数据显示,到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。

数据标注市场的主要增长动力,来自于人工智能技术的快速发展和应用。数据标注作为数据预处理的重要环节,市场需求随之扩大。随着大模型时代的到来,数据标注在AI开发模式中的重要性日益凸显,贯穿大模型的全生命周期,上下游合作关系更为紧密耦合。此外,非结构化数据的清洗与标注需求不断增加,也将为数据标注市场带来了源源不断的增长动力。

 
最新文章
相关阅读