时间:2024-04-29 17:09:13
作者:欧陆注册科技
浏览: 次
图像标注在训练机器自动将相关元数据信息分配给数字图片方面起着重要作用。此元数据通常包括标题、关键字、位置标记或这些详细信息的任意组合。此过程是创建用于训练计算机视觉应用程序的深度学习模型的数据集所必需的。
其中许多计算机视觉工具用于电子商务平台、社交媒体网站和其他类似群体的图像检索系统。它还用于公共办公室和私人机构的多媒体数据库。这些应用程序使从这些组的本地和远程数据库中组织、更新和提供正确的多媒体内容变得更快、更容易且成本更低。
计算机视觉应用也用于机器人、安全、制造和许多其他行业。例如,世界各地的许多工厂都使用机器来提高工人的生产力。其中一些工具配备了摄像头和计算机视觉功能,可自动发现制造设备输出中的问题。这些机器还实时提醒工人这些问题。同时,计算机视觉工具也用于自动驾驶汽车和面部识别应用程序。
训练数据是深度学习的核心
人工神经网络在1940年代中期被设计为旨在模仿人类大脑如何根据感觉输入处理信息的算法。随着新技术和更强大的计算机的出现,狭义AI(人工智能)和通用人工智能(AGI)之间的界限变得更加清晰。因此,业界决定为这个倾向于狭义人工智能发展的人工神经网络研究领域取一个更合适的名称。这现在被称为机器学习。
之后,深度学习(DL)作为机器学习的一个子领域诞生了。
深度学习就是要扩大机器学习模型的能力。该子领域的另一个目标是有效解决其他机器学习方法的过拟合问题。因此,通过使用更大的人工神经网络和功能更强大的计算机来训练具有大量数据的这些模型,这些网络的性能会随着时间的推移而不断提高。
图像标注类别
1. 基于检索的图像标注
这也称为CBIR,代表基于内容的图像检索。这是一种在图像具有相似视觉特征时将图像分类为语义相关的方法。
CBIR系统通常设计为使用图像的纹理、颜色和形状来将其与地面实况图像集进行比较。每个集合都有一个概念标签,这是它特定的语义分类。例如,一个集合可以属于概念标签“狗”,而另一个属于“猫”,依此类推。
这是图像在训练期间分配给相应图像集的特定概念标签下分类的地方。一旦 CBIR 系统将具有最高视觉特征相似性的集合识别为图像的特征,该过程就完成了。然而,用于训练人工神经网络的数据集限制了它寻找相似的抽象概念。深度学习模型也受限于寻找集合和图像之间的隐藏特征。这是因为它受到为每组地面实况图像提供的预定义分类的限制。
2. 基于分类的图像标注
这是一种使用多个分类器对图像进行标注和分类的方法。也称为监督学习,这些多个分类器是在训练期间从特征提取过程中识别出的图像的视觉特征。
每个视觉特征都被视为一个独立的语义概念标签。它被分配了一个特定的类,该类又用作唯一的分类器。SVM(支持向量机)和贝叶斯方法是该方法最常用的算法。
众所周知,当向深度学习模型提供小数据集时,SVM效率更高。当通过监督学习方法为计算机视觉应用训练深度学习模型时,通常会使用该算法。然而,这主要用于解决分类问题,尽管它也适用于回归任务。
此过程是将从图像中提取的某个特征的值映射到特定坐标的地方。这些数据点根据训练期间从数据集中的图像中提取的所有视觉特征的数量进行绘制。计算机视觉应用程序的深度学习模型将其视为表示图像的维度空间。
这个维度空间由所有提取的视觉特征组成,这些特征被分组并分配一个特定的语义概念标签。在验证和推理过程中,深度学习模型试图自行找到将每个类与所有其他类区分开来的超平面。它执行此操作以完成其分类任务。
同时,顾名思义,贝叶斯方法是基于贝叶斯定理的。这是从条件、联合和边际统计概率方法中得出的。然而,贝叶斯定理是计算条件概率的另一种方法。这是使用给定边际、联合或条件统计问题的次要条件概率来计算其主要条件概率的地方,反之亦然。
3. 基于概率的图像标注
这是估计图像的视觉特征与其最可能的概念标签之间的相关性的地方。这样的过程是基于这些视觉特征和语义分类之间的术语-术语关系。
根据图像特征和可用概念标签的相似性找到匹配项。这种方法通常用于解决同形异义词和同义词问题。
通常用于基于概率的图像标注的算法方法包括 LSA(潜在语义分析)、共现模型、HMM(隐藏马尔可夫模型)和PLSA(概率潜在语义分析)。
不同的图像标注类型
如前所述,图像标注是对数字图像感兴趣区域内的目标对象进行标注的过程。这是为了训练机器在看不见的图像和视觉场景中识别相同类别的对象。但是,这种方法可能非常具有挑战性。这是因为有不同的方法来开发深度学习模型架构和技术来训练机器来做到这一点。
这意味着我们应该了解当今最常用的图像标注类型和方法。
1.边界框
这是一种简单而通用的图像标注类型。而且,这就是为什么这种方法是最广泛使用的技术之一,用于在计算机视觉应用程序的深度学习模型的数据集中标注图像。顾名思义,感兴趣的对象被包围在边界框中。图像使用 X 和 Y 坐标的标记进行标注,这些标记是包围感兴趣对象的边界框的左上列和右下行。
2.语义分割
这种图像标注方法是为图像中的每个像素分配一个特定的语义概念标签。最初标记图像,目的是将其分隔为单独的区域。这些用不同的语义标签标注,即某个区域中的每个像素被分配“道路”,而不同区域中的另一组像素用概念标签“天空”标注。
3. 多边形分割
这种图像标注方法使用复杂的多边形代替简单的边界框。就在图像中感兴趣区域内查找对象的位置而言,这可以提高模型的准确性。反过来,这也可以提高对象分类的准确性。这是因为这种技术可以清理并去除感兴趣对象周围的噪声,这些噪声是对象周围的一组不必要的像素,容易混淆分类器。
4. 行注解
线和样条用于这种图像标注方法,以标记包含目标对象的图像中感兴趣区域的边界。当包含目标对象的感兴趣区域对于边界框而言太薄或太小时,通常会使用此方法。
5. 3D长方体
这是一种图像标注方法,常用于3D场景和照片中的目标对象。顾名思义,此方法与边界框之间的区别在于,此技术的标注包括深度,而不仅仅是高度和宽度。
6.地标标注
也称为点标注,此方法使用点作为目标对象周围的标注,目标对象被图像的各个感兴趣区域包围。这经常用于查找和分类被包围或包含小得多的对象的目标对象。这通常用于标记目标对象的轮廓。