时间:2022-11-09 21:54:19
作者:欧陆注册科技
浏览: 次
介绍
您想知道什么是数据标注以及它有什么用处吗?您是否考虑为您的 AI 和机器学习项目使用带标注的数据集?您想了解更多关于数据标注、它可以为您的项目带来的好处以及如何将其集成到您的机器学习工作流程中的信息吗?
机器学习越来越多地成为企业日常产品和运营的组成部分,这些模型的性能取决于它们使用的数据的质量。这种依赖性突出了数据集在机器学习中的重要性以及我们收集它们的方法。
通常,我们使用的数据已经带有高质量的标签。例如,当根据过去的值预测股票价格时,价格既作为目标标签又作为输入特征。
但是,我们的数据中并不总是有标签或具有所需的质量。标签可能是嘈杂的、有限的和有偏见的(例如,用户添加的标签和类别)或完全缺失的(例如,对象检测)。
为了获取标签或提高标签质量,我们可以进行数据标注。在数据标注中,我们在标注工具和算法支持的人工标注器的帮助下标记或重新标记我们的数据。这使得模型训练成为可能,提高了数据质量,或者提高了模型性能。在其他用例中,我们可以使用数据标注来决定不确定性 决定不确定性预测(概率接近)或验证我们的模型。
数据标注是一种广泛使用的实践。
如果你标注数据,你应该把它做好。数据标注可能是一个复杂、缓慢且昂贵的过程,需要进行评估和质量评估。如果您需要定期标注数据,您可能希望将其作为机器学习工作流程的一个组成部分。幸运的是,您可以使用一些方法来使标注有效且不易出错。
在本文中,您将了解数据标注、其类型以及让人类参与该过程如何使您的机器学习模型受益。我们还将分享一些您可以用来考虑标注项目的指南。
数据标注通常在人工标注者的帮助下发生,但也可以使用算法或两者的组合。在本文中,我们主要关注人工标注并突出显示您可以同时使用它们的选项。
数据标注(或有时称为“数据标记”)代表机器学习模型训练数据集的主动标记。这意味着最常添加目标标签,但也可以代表添加特征值或元数据。在某些情况下,人们也可能将人类对模型预测的验证称为数据标注,因为它需要标注者对数据进行(重新)标记。
根据上下文,人们也可能将此活动称为“标记”、“分类”或“转录”。但是,在这种情况下,所有这些术语都意味着标注使用建模过程中使用的信息扩展了数据。
以下是数据标注的主要用例:
生成标签:在某些情况下,标注是记录目标标签或特征的唯一方法。例如,训练对猫和狗进行分类的模型需要包含明确的“猫”和“狗”标签的图像数据集。我们需要标注器来标记这些样本。
生成特征:带标注的数据可以突出我们模型中无法从嘈杂的真实数据中自动识别的关系。
提高标签质量:重新标记嘈杂、有限、不准确或有偏见的标签。
验证模型性能:比较模型生成的标签和人工标注的标签。
将无监督转换为有监督:将无监督或一类监督问题转换为有监督问题(例如,在异常检测中)。
人工标注数据是指人类是数据标注的主要来源。
就目前而言,人类可以识别和理解机器学习模型无法识别和理解的东西。这些东西是什么并不总是很清楚,因为模型、人类和业务问题多种多样。在特定环境中,人类可能比模型更好地识别以下几点:
主观性和意图
不确定性、模糊的概念和不规则的类别
与业务问题相关的上下文以及数据点在该上下文中是否“有意义”
人类验证模型预测可以增加对我们的数据和建模过程的信任,因为模型通常是不透明的,人类可以识别“不切实际”的预测并将结果链接到他们的上下文中。
遵守法规可能还需要人工验证者参与机器学习工作流程。
您如何以及在哪一步依赖人工或自动标注是一个特定于问题的问题。
在半自动标注方法中,您结合了机器学习技术和手动标记方法。例如,您可以使用模型来减少数据标注时间。或者,您可以基于分类置信度以交互方式传播样本以进行标注。
我们可以根据标注的数据类型或者数据标注是组织内部还是组织外部来区分不同类型的数据标注问题和方法。
基于数据类型的数据标注类别
基于数据类型的分类相对简单,因为它们遵循机器学习中使用的常见数据类型:
文本
图片
视频
声音的
这些数据类型代表了人类相对直接感知的数据格式。使用人工标注表格、网络或时间序列数据的情况不太常见,因为人工标注者在这些领域的优势通常较少。
不同的数据格式需要不同的标注方法。例如,要生成高质量的计算机视觉数据集,您可以在不同类型的图像标注技术之间进行选择。
无论使用何种数据格式,标注项目都倾向于按照以下阶段工作:
1.识别数据中的实体并将它们彼此区分开来。
2.识别元素的元数据属性。
3.以特定形式存储元素的元数据属性。
内部和外部数据标注
另一种分类取决于标注是发生在组织内部还是外部。
在内部情况下,数据标注可以是内部训练数据创建或模型验证的一部分。我们在这里讨论的大多数资源都描述了这种情况。
在外部情况下,组织使用外部资源来标记其数据。有不同的来源可以做到这一点,例如标注竞赛或专业标注服务。
在某些情况下,数据标注工作流的特定组件是“内部的”,而其他组件是“外部的”。例如,我们可以聘请外部标注者,他们将在我们的内部标注工作流程中工作。
要做好数据标注,您需要将其视为机器学习工作流程的一部分,并将其构建为标注器、算法和软件组件的组合。
数据标注项目的两大问题是如何有效利用有限的标注资源以及如何评估标注的质量。
有不同的技术可以解决这些问题。在本节中,我们将讨论这两个:
主动学习:采样数据进行标注的方式
质量评估:验证标注性能
主动学习:为标注采样数据
主动学习是在数据标注的上下文中选择数据样本的方法。
当您将人工标注与机器学习模型相结合时,您需要决定的一个关键问题是人工标注者要对数据的哪一部分进行标注。您在数据标注上花费的时间和资金有限,因此您需要有选择性。
不同类型的主动学习可以帮助您只选择相关的样本进行标注,节省时间和成本。以下是三个受欢迎的:
随机抽样
不确定性抽样
多样性抽样
1.随机抽样
随机抽样是最简单的主动学习类型。它可以作为一个很好的基准,您可以根据它来比较其他策略。
然而,由于接收数据的分布,拥有一个真正随机的样本并不总是那么容易,因为随机抽样可能会忽略其他方法积极寻找的问题。
2.不确定性抽样
在不确定性抽样中,您选择最接近模型决策边界的未标记样本。
这种方法的价值在于这些样本被错误分类的可能性最高,因此手动标注它们可以纠正它们可能出现的错误。
不确定性抽样的一个可能问题是它选择的标签可能属于同一个问题空间,并且只集中在决策边界的一个特定方面。
不确定性抽样对于有效估计其预测不确定性的模型更有用。对于其他类型(例如,深度神经网络),我们可以使用其他置信度估计方法来改进不确定性估计,例如监控和模型验证工具提供的那些。
主动学习中的不确定性抽样
3.多样性抽样
多样性抽样需要对模型训练数据中特征值代表性不足甚至未知的样本进行标注。此工具的其他名称可以是异常或异常值检测、代表性抽样或分层抽样。
这个工具的主要好处是教你的模型考虑它可能会忽略的信息,因为它在训练数据集中的出现率很低。
我们可以使用多样性采样来防止由于数据漂移导致的性能损失。数据漂移的发生是因为我们的模型接收到的数据中包含大量先前预测不佳的样本区域。我们可以通过多样性采样来识别和标注这些代表性不足的样本区域,并提高对它们的预测能力。这样做会限制数据漂移的影响。
您的标注者可能会犯错误,您需要引入检查和验证点以系统地捕获它们。
以下是可以帮助您提高标注性能的几个方面:
专业知识:经验丰富的标注者和主题专家可以提供高质量的信息并进行最终审查。
团队:有时,需要不止一个人来提高标注准确性并就相关性达成“共识”。
多元化:来自具有不同背景、技能和专业水平的团队成员的见解,可以很好地互补并防止系统性偏见。
在本文中,您了解了数据标注是什么以及它如何使您的机器学习模型受益。
标注可以为您提供带标签的数据集、提高数据质量或验证模型。它还可以帮助您的机器学习模型消除偏见,并根据可用数据了解它无法了解的关系。
即使您拥有训练有素的模型,您也必须注意影响其性能的数据漂移和概念漂移。作为连续模型验证过程的一部分,您可以通过重新检查模型来使用数据标注来做到这一点。