时间:2022-10-24 11:40:56
作者:欧陆注册科技
浏览: 次
我们如何才能在我们的人工智能/机器学习中获得最高质量?许多科学家认为,答案是高质量的训练数据。但要确保如此高质量的工作可能并不那么容易。所以问题是“数据标注的最佳实践是什么?
人们可能会认为数据标注是一种不需要战略思维的单调乏味的工作。标注者只需处理他们的数据,然后提交!
然而,现实却有所不同。数据标注的过程可能漫长而重复,但从来都不是一件容易的事,尤其是管理标注项目。事实上,由于训练数据质量差和管理效率低下,许多人工智能项目都以失败告终。
每个技术项目都需要从定义和规划步骤开始,即使是像数据标注这样看似简单的任务。
首先,需要对项目中的关键要素进行明确的澄清和确定,包括:
主要利益相关者
总体目标
沟通和报告的方法
待标注数据的特征
数据应该如何标注
数据标注最佳实践——训练数据集
主要利益相关者
就关键利益相关者而言,主要有以下三种:
整个AI产品的项目经理:项目经理必须确定项目的实际应用,以及需要将什么样的数据放入AI/ML模型中。
标注项目经理:他/她的主要职责包括日常职能,他们将对输出的质量负责。他们将直接与标注者合作并进行必要的培训。如果您有标注项目经理,请确保他们具有主题专业知识,以便他们可以立即开始处理项目。
标注者:对于标注者来说,最好是他们受过良好的标签工具(或自动数据标签工具)训练。
确定利益相关者后,您可以轻松地确定他们的职责。例如,数据集的整体质量将由标注项目经理负责,但如何在 AI/ML 模型中使用数据将完全由项目经理负责。
这些利益相关者中的每一个都有自己的工作、自己的技能和宝贵的观点,以实现最佳结果。如果您的项目缺乏这些利益相关者中的任何一个,则它可能面临性能不佳的风险。
总体目标
对于任何数据标注项目,您都需要知道您想要什么作为输出,从而制定适当的措施来实现它。有了关键的项目利益相关者,项目经理可以将他们的所有意见放在一起,并提出总体目标。
时间线是另一个需要很好照顾的重要功能。每个利益相关者都必须参与到这个过程中来定义时间线上的期望、约束和依赖关系。这些功能会对项目的预算和时间产生很大的影响。
数据标注最佳实践——管理时间线
团队制定合适的时间表有一些基本规则:
所有利益相关者都必须参与创建时间表的过程
应明确说明时间表(日期、时间等)
时间表还必须包括培训和创建指南的时间。
如果存在与数据相关的任何问题或不确定性,标注过程应传达给所有利益相关者,并在适用的情况下记录为风险。
在此过程中,时间表将决定如下:
对于产品经理来说,他们必须考虑到项目的整体需求。截止日期是什么?有什么要求和用户体验?由于产品经理不直接参与数据标注过程,他们需要了解或了解项目的复杂性,从而设定合理的期望。
对于标注经理来说,他们需要知道项目的复杂性来分配需要知道的标注者来完成项目。这个项目需要什么主题知识?需要多少人来做这件事?他们如何确保高质量并有效地遵循时间表?这些都是他们需要回答的问题。
对于数据标注者,他们需要阐明他们正在处理什么类型的数据、什么类型的标注以及完成这项工作所需的知识。如果他们没有,他们必须接受专家的培训。
在进入标注过程之前,您必须考虑指南和培训,以便团队能够在他们的工作中达到最高质量。
创建指南
为了使标注的数据保持一致,团队需要为一个特定的数据标注项目提出完整的指南。
本指南应基于有关项目的所有信息构建。如果你有类似的项目,你也应该基于它编写新的指南。
数据标注最佳实践——创建指南
以下是在数据标注中创建指南的一些基本规则:
标注项目经理需要考虑到项目的复杂性和长度。尤其是具有复杂性的项目会影响指南的复杂性。
指南中应包含工具和标注说明。必须清楚地说明工具的介绍以及如何使用。
必须有示例来说明标注者必须使用的每个标签。这有助于标注者更轻松地理解数据场景和预期输出。
标注项目经理应考虑在标注指南中包含最终目标或下游目标,以便为员工提供背景和动力。
标注项目经理需要确保该指南与项目的其他文档保持一致,以免发生冲突和混乱。
培训劳动力
根据利益相关者的指导方针,标注团队经理现在可以轻松地继续培训。
再次强调,不要将标注视为简单的工作。它可以是重复的,但也需要大量的培训和主题知识。此外,数据标注者的培训需要注意许多事项,包括:
项目性质:项目复杂吗?数据是否需要主题知识?
项目的时间框架:项目的长度将定义花费在培训上的总时间
管理劳动力的个人或团体的资源。
在培训过程之后,标注者应该充分理解项目并生成既有效(准确)又可靠(一致)的标注。
数据标注最佳实践——培训劳动力
在训练过程中,注解管理器需要确保:
培训基于一个指南,以确保一致性。
如果在项目已经开始时有新的标注者加入团队,则培训过程将再次进行,通过直接培训或录制视频培训。
如果有任何问题,必须在项目开始之前回答所有问题。
如果有混淆或误解,应该在项目开始时就解决,以避免以后出现任何错误。
在培训过程中必须明确定义质量输出问题。如果有任何质量保证方法,应向标注者公布。
书面反馈会提供给数据标注者,以便他们知道他们将要处理哪些指标。
在标注过程中,训练数据集的质量取决于标注管理器如何驱动标注团队。为确保最佳效果,您可以采取以下措施:
在项目的需求明确后,你需要为标注者设定合理的目标和时间表。
每个估计和试验阶段都需要事先完成。
您需要定义质量保证流程以及要参与的人员
标注管理器需要解决标注者之间的协作问题。谁来帮助谁?谁来核对谁的工作?
您将项目分成更小的阶段,然后对错误的工作提供反馈。
标注经理将确保在整个标注过程中为标注工具提供技术支持,以防止项目延迟。如果有任何问题无法单独解决,他/她需要向工具提供商或项目经理寻求可行的解决方案。
有关如何管理数据标注过程的更多详细信息,请查看:确保数据标记质量的基本指南
标注完成后,重要的是评估整体结果以及团队如何完成工作。通过这样做,您可以在将标注提交给其他团队或客户之前确认标注的有效性和可靠性。
如果有额外的注解,你需要重新审视对项目定义、培训过程和劳动力的战略调整,这样下一轮的注解收集才能更有效率。
实施流程以检测可能需要额外标注的数据漂移和异常也非常重要。