密集的工位上摆放着一排排整齐的电脑,这里的员工或浏览图片,或看视频,或听语音,他们一边看,一边标记着他们看到的东西。有的是在为无人驾驶公司标注汽车、红绿灯,有的在为教育机构标注课程对话,有的在为医院病历单进行标注.......
谈及数据标注行业,人们的第一印象总是直接(把标注)定义成劳动密集型行业,依靠着视觉冲击,对数据标注行业有了基础的皮毛了解后,忍不住发表观点:这不就是富士康吗?亦或者我们看到的某些新闻对数据行业的报道凸显的是“重复工作”“低学历”“条件艰苦”,但是实际上,数据标注这个行业已经走过了小作坊的粗放式,开始走进“技术致胜”的时代。
数据如何标注?
如今,大多数数据都没有标注。带标签的数据,意味着标注或注释目标模型的数据,以便可以预测。通常,数据标注包括数据标注,注释,审核,分类,转录和处理。
标注的数据突出显示某些特征,并根据这些特征对其进行分类,可以通过模型分析其模式以预测新的目标。例如,对于自动驾驶汽车中的计算机视觉,AI专业人员或数据标注者可以使用视频标注工具来指示路牌的位置,并通过行人和其他车辆的位置来训练模型。
数据标注本身也需要AI来辅助
文章开始,我们就说过,数据标注正在走向“技术致胜”的时代,因此数据标注产业也在利用AI提升工作效率。
目前,将技术引入到数据标注流程已经是业内通用的做法,让训练好的AI模型反哺人工标注,也是标注技术公司的优势所在。
像LabelIme支持对象检测、图像语义分割数据标注;Photoshop可选择标注界面和工具;point-cloud-annotation-tool支持3D BOX盒子生成,支持KITTI-bin格式数据.....
再比如AI辅助打点,以往标注师想要精细描摹一辆车的轮廓,需要手工打上30多个点。如果标注一辆车需要1分钟,那么标注图片上所有物体则平均需要1小时。
“借助AI辅助功能,现在只需在车的外轮廓上任意打4个点,系统就会自动把30个点全部打完,轮廓贴合的也很好。这样人工打点就能减少到4个,只需进行微调,减少了一半用时,效率也提升了。”
不过,在一些全新的领域,机器尚不能辅助人类工作,数据标注仍需人力完成。即便有了AI自动化标注工具,依然要由人来做审核质检的最后一步。
数据标注更像是一个裁缝
2017年《经济学人》发表的封面文章提出一个疑问:数据更像是有还是阳光?
不可否认,数据是“世界上最宝贵的资源”,数据是未来的石油;但相比石油、打字员、训练师这样的定义呢,我们将数据标注比拟为【心灵手巧的裁缝】更为恰当。标注师们根据行业的要求,按照用户的非标准化需求量体裁衣。一个数据的完成也是需要经过选料(选择合作商,下放标注任务)、量体(数据采集、数据标注)、试穿(数据提交、数据质检)、改样(数据修改、在提交,审核),每一步都错不了,每一步也不可缺少。
高质量的数据标注需要高学历、取得相关资质证件
通过报道我们看到的像百度山西基地,大多数人都是专科背景,经过培训可掌握通用型的拉框、打点任务。但涉及到医疗、金融、语言、法律等专业领域,往往需要具备专业知识的数据标注师来标注。
例如:在2017年,Google AI公布了一项突破性研究成果:通过机器学习技术,AI能够从病人的视网膜眼底照片中 自动诊断出潜在的病变情况,来提前发现糖尿病视网膜病变,进行及时的治疗和预防,让患者保住视力。
而你如果想要接到类似上述Google的数据单子,是需要取得医师资格证。同样的涉及到像做法律文书标注或投融资事件分析,则更是需要相关专业的本科生来完成。所以你还认为数据标注是一项简单的工作吗?
人工智能取代了大量的工作,那么数据标注呢?
据时代的历史,大约公元前18000年人类用计数棒进行储存和分析数据;伊尚戈人的骨头于1960年在现在的乌干达发现,这被认为是史前数据存储的最早证据之一;在公元前2400年,算盘作为第一个专门用于计算的专用设备在巴比伦开始使用。第一座图书馆也是在这个时候出现的,这是人类首次尝试大规模的数据存储。
从古至今,人类发展都离不开数据。随着近几年“数据时代”、“人工智能”成为热点词,人工智能发展成熟到一定阶段,当AI代替了大量人类工作的时候,不会仅仅是个别行业的零星问题,最终的发展方向只会是更加专业的数据标注人才取代基础工种。
就人才需求层面来讲:
《新一代人工智能发展规划》提出,到2020年人工智能总体技术和应用与世界先进水平同步,核心产业规模超过1500亿元,到2025年人工智能核心产业规模超过4000亿元,到2030年人工智能理论、技术与应用总体达到世界领先水平,核心产业规模超过1万亿元。随着政策的进一步推动以及技术的进步成熟,人工智能产业落地速度将明显提速,中国AI数据服务行业也将迎来巨大的发展浪潮。
相关调查显示,2019年,企业在数据标签上的支出超过17亿美元。到2024年,这一数字将达到41亿美元,因此目前的数据标注人才仍旧处在一个极为紧缺的阶段。
虽然在未来,AI很有可能发展到“自己教自己”这一步。但目前为止,大部分的数据标注工作都是由真人完成的。这个工作不像大家想象的那么简单,而是充满了复杂的判定和繁琐的重复。
而随着人们对数据的需求越来越高,也有越来越多的人开始靠标注数据为生。