
数据注释是自动驾驶汽车开发中劳动密集型的一部分。资料来源:Shutterstock,Mindy支持
为了使机器人,无人机或车辆达到更高的自治水平,他们需要基于可靠数据的人工智能。从事机器学习项目的公司必须兼顾研究,开发,分析和与其核心功能相关的其他任务。他们的内部员工不一定有时间以训练机器学习算法所需的数量注释数据。由于工程师和其他团队成员往往要求高薪水,因此这种工作也可能被证明是昂贵的。
为什么数据注释很重要?
正确注释的数据对于自动驾驶汽车,无人机的计算机视觉以及许多其他应用的开发非常重要 人工智能 和机器人应用。
自动驾驶汽车 必须能够识别他们在旅途中可能遇到的一切。因此,人类数据注释者需要在数百万张图像中标记行人,交通标志,其他车辆以及许多其他物品,以使此类汽车安全,正常地运行。
精确度 农业, 无人机 可以帮助农民确定收成不好的农作物,以便他们可以在失去整个收成之前调整肥料,水或农药的施用。必须训练计算机视觉来识别水果和蔬菜,这些水果和蔬菜在不同的条件下可以在形状和方向上变化很大,才能起作用。
服务机器人和由AI驱动的助手依靠自然语言处理来理解人们在说什么。这需要文本注释,以便机器学习算法可以学习不同类型的句子结构。但是,人类数据注释者的工作是将输入文本分解为较小的短语,以供计算机提取。
由于数据注释非常耗时,因此许多公司将任务外包给服务 提供者 具有必要的人员配置能力,可以按时在预算范围内完成所有工作。为了找到适合您需求的提供商,这里列出了目前在美国市场上运营的10家数据注释公司。
1.亚马逊机械特克(MTurk)
毫不奇怪,因为它’s owned 通过 亚马孙, 特克 公司可以全天候使用庞大的分布式员工队伍。公司可以使用MTurk雇用个体工人来帮助他们完成机器学习项目的特定任务。这些通常是简单的工作,例如为图像加标签或转录文本。 特克非常适合小型项目,这些项目不需要批注大量数据,而是需要快速,廉价地完成任务。
优点:
- 亚马孙 是世界上最大的公司之一
- 开发和实施AI和机器学习中的新技术
- 特克可以提供广泛的人才库供您选择
缺点:
- 亚马孙 Mturk是一个众包平台,很难筛选候选人
- 难以实施任何种类的质量保证(QA)流程
- 缺乏个性化和自定义功能,无法满足您的独特需求和要求
2. Mindy支持
明迪支持 是多家财富500强和GAFAM公司(谷歌,苹果,Facebook,亚马逊和微软)以及全球繁忙的初创企业的公认合作伙伴。它提供了广泛的数据注释服务以及其他业务流程外包(BPO)产品。
明迪支持是东欧最大的BPO服务提供商之一。它与MTurk的区别在于,它通过可靠的多级QA流程从头到尾管理整个项目。拥有如此庞大的员工队伍,Mindy Support可以迅速扩大规模,而不会影响质量。
优点:
- 超过7年的经验与100%的客户会面’质量和准确性要求
- 东欧最大的BPO公司之一,在六个地区拥有2,000多名员工
- 强大的客户组合,包括多家财富500强和GAFAM公司
缺点:
- 在美国没有办事处
- 在某些行业缺乏品牌知名度
- 与美国的时差
3.附件
图八,获得 去年 通过 阿彭,使用人工注释者的分布式网络提供高质量的数据注释服务。将所有注释者都放在一个屋顶下总是一个好主意,因为这有助于更好的沟通并帮助每个人都停留在同一页面上。
优点:
- 高质量
- 在130个国家/地区工作的经验
- 180种语言的专业知识
缺点:
- 成本高
- 由于许多项目而缺乏沟通
- 工具安全风险
4.蜂巢
蜂巢 提供了用于数据注释的端到端解决方案,但其用例表明,它为有限的行业提供服务。此外,尚不清楚该公司是否处理任何医疗或农业项目。
优点:
- 提供广泛的服务,包括应用程序开发
- 开发了自己的全栈AI平台
- 产品开发备受关注
缺点:
- 对数据注释的关注不足
- 员工不足以承担大型项目
- 如果您对其平台不满意,则没有其他选择
5.游戏
游乐设施 提供各种数据注释服务,但它似乎仅专注于汽车行业。尽管如此,许多大公司仍然信任该公司,该公司提供了它可以管理的各种数据注释项目的详细说明。这有点不寻常,因为很少有公司会详细说明他们专门研究的数据注释的类型。
优点:
- 开发了自己的数据注释平台
- 支持多种注释
- 专注于自动驾驶
缺点:
- 除了汽车以外没有其他行业
- 在工具和平台方面没有灵活性
- 目前尚不清楚他们内部有多少名员工可以从事项目

许多数据注释服务提供商专注于汽车应用。资料来源:Shutterstock,Mindy支持
6.边套
边缘盒 是该列表中为数不多的,专注于汽车行业以外领域的公司之一。该平台还与大学和行业专家建立了联系,这有助于提高其信誉并使其在人群中脱颖而出。
优点:
- 自动化快速注释
- 全球四个办事处
- 每天生成超过300万张图像
缺点:
- 由于Edgecase成立仅几年,因此它还没有很多经验
- 高速导致质量低下
- 仅使用自己的工具和有限的人员
7.规模
规模 是一家很有趣的公司,因为它通过应用程序编程接口(API)提供托管标签服务。许多其他公司更关注于人为因素,但是Scale更依赖于计算机对数据进行注释。更重要的是,它具有质量控制系统—如果您想雇用人员数据注释者,请记住一些注意事项。
优点:
- 技术完成所有数据注释
- 受到世界上一些知名人士的信任
- 执行各种注释服务
缺点:
- 如果您正在寻找人工注释者,Scale不提供此服务
- 服务的行业数量有限
- 客户节省的成本尚不清楚
8.循环中的人类
该公司成立于三年前,专门从事数据标记服务。 循环中的人类 在社区中也做很多工作,并为受战争困扰的国家(如伊拉克,土耳其和叙利亚)的人们提供就业机会。与一家以人为本并为他人提供帮助的公司合作始终是一件好事。
优点:
- 为250名受冲突影响的人提供工作
- 被2020年迪拜世博会创新影响力大奖认可为全球创新者
- EC数字技能和工作联盟成员
缺点:
- 注释者在存在不稳定和安全风险的国家中工作
- 公司只有大约三年的市场经验
- 250名员工真的不足以承担大型项目
9. Clickworker
Clickworker 以微任务专业知识而自豪。考虑到这一点,目前尚不清楚它将如何处理在自动驾驶汽车或医疗保健AI相关项目中训练ML算法所需的更大数据注释项目。
优点:
- 众包运营模式
- 招募大量人才
- 可以快速组队
缺点:
- 不要提及其服务或专业领域
- 众包工人可能很麻烦,尤其是在敏感信息方面
- 对于Clickworker,您通常必须重做很多任务,从而导致延迟
10.大脑
德布林 是一个将数据科学家连接到 带注释的数据集。当然,有时项目不需要很高的技能,而学历较低的人可以执行任务。无论如何,如果您需要高技能和知识渊博的承包商来注释数据,Dbrain都是理想的选择。
优点:
- 将数据科学家与数据注释器直接连接
- 与各自行业的大公司合作
- 可以加快业务流程
缺点:
- 没有英文网站;必须使用Google翻译或类似的应用
- 没有提及他们有多少工人
- 不要谈论方法论或过程

资料来源:Mindy支持
如果您要启动数据注释项目,请定义您在合作伙伴中寻找的最重要的素质。外包可以使开发人员将更多精力放在核心业务上,但是您应该直接与多家供应商联系以选择最佳供应商。
关于作者
玛丽娜·奥扎霍尼奇(Maryna Ozhohanych)是Mindy Support的高级营销经理,拥有十多年的营销经验。她加入Mindy Support,以提高机器学习和AI中数据注释中可交付成果的效率。 Ozhohanych致力于通过为计算机视觉和机器学习使用文本,视频和图像注释进行适当的定位和标记,确保正确的数据分类类型,从而为汽车,机器人,自治安全和其他公司带来价值。
我想开始一个数据注释项目。能帮我得到一个项目吗?
我想启动一个有关数据注释的项目,有人可以帮助我吗?谢谢
嘿,这是非常有趣的工作。谢谢作者