二八定律凸显AI 时代数据重要性。AI系统是由代码和数据组成,国际权威ML学者吴恩达认为如果没有高质量的数据集,AI系统就会失败。此外,其一直强调“以数据为中心的AI”,提出了著名的“二八定律”,即80%的数据+20%的模型=更好的机器学习,凸显数据对于AI 系统的重要性
什么是数据标注
训练机器学习和深度学习模型,需要丰富的数据,以便将其用于部署,训练和调整模型。训练机器学习和深度学习模型需要大量经过仔细标注的数据。标注原始数据并准备将其应用于机器学习模型和其他AI工作流,被称为数据标注
通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。标记的基本形式有标注画框、3D点云、文本转录、图像打点、目标物体轮廓线等。由于机器学习需要反复学习以训练模型和提高精度,同时无人驾驶、智慧医疗、语音交互等各大应用场景都需要标注数据,因此数据标注行业从业者需要综合知识能力较强的人才能做好
为什么要做数据标注工作?
AI标注师就像是人工智能的“导师”,通过对信息不断地进行分类和标注,让机器理解人类的思维方式,像人一样对信息进行判断和处理
打个比方,人工智能能识别红苹果,但拿个绿苹果让它识别,AI就懵了,这时候就需要数据标注师告诉它绿苹果也是苹果,甚至被啃过一口的苹果也是苹果
通过不断地训练,到最后就算苹果削了皮,人工智能也能一眼识别出“小样儿?你脱了马甲我照样认识你”
数据标注可做市场空间有多大?
《2020年中国AI数据服务行业研究报告》分析认为,在人工智能下的各场景需求剧增的情况下,作为AI技术的底层支撑,数据服务尤为重要。伴随技术的成熟、平台的布局,未来市场发展潜力将不断拓展,AI数据服务+各场景将成为可能
据艾瑞统计与预测,2022年我国AI基础数据服务市场规模(含数据采集与标注)为31亿元。受自动驾驶、对话机器人、消费硬件等AI应用,对图像、语音和文本数据集及定制化数据服务的需求上涨影响,2027年相应规模可达到79亿元,2022—2027年的相关CAGR=20.6%,整体增速呈现稳步提升的趋势
除基础数据市场外,AI技术已在科技互联网、社交、IoT、智能驾驶等多个领域实现技术落地,AI+垂直场景相结合的趋势,以及这些垂直行业自身的蓬勃发展将有望释放海量的训练数据需求
当AI+模式更加深入地扩展到工业、金融、医疗等更多领域时,或将呈现出更加宏大的增量商业价值和潜力。而这些因素,有望对AI数据领域带来更大的增量市场空间。