长期以来,人类一直是敏捷技巧的大师,这种技巧在很大程度上可以归功于我们的眼睛。同时,机器人仍在追赶。
当然,已经取得了一些进展:数十年来,诸如装配线之类的受控环境中的机器人能够一次又一次地拾取同一物体。最近,计算机视觉的突破使机器人能够对物体进行基本区分。即使这样,系统仍然无法真正理解物体的形状,因此机器人在快速拾取后几乎无能为力。
在一篇新论文中,来自 麻省理工学院的计算机科学与人工智能实验室 (CSAIL)说,他们在此工作领域取得了重要进展:该系统可以让机器人检查随机物体,并以视觉方式理解它们以完成特定任务,而以前从未见过。
该系统称为密集对象网络(DON),将对象视为点的集合,这些点可用作视觉路线图。这种方法使机器人可以更好地理解和操纵物品,最重要的是,它们甚至可以使它们在杂乱的杂物中拾取特定的物体,这对于像亚马逊和沃尔玛这样的公司在仓库中使用的机器来说是一项宝贵的技能。
例如,某人可能会使用DON来使机器人抓住物体的特定位置,例如鞋的舌头。由此,它可以看着从未见过的鞋子,并成功抓住它的舌头。
“博士生卢卡斯·马努内利(Lucas Manuelli)说道,他与主要作者,博士生Pete Florence以及麻省理工学院教授一起撰写了有关该系统的新论文,他说。拉斯·特德拉克(Russ Tedrake)。 “例如,现有的算法将无法通过手柄来抓住杯子,特别是如果杯子可以在多个方向(例如直立或在其侧面)上。”
该团队不仅在制造环境中,而且还在家庭中查看潜在的应用程序。想象一下,给系统一个整洁的房子的图像,然后在工作时让它清洁,或者使用一个碗碟的图像,以便该系统在您度假时可以将盘子收起来。

借助DON系统,机器人可以执行新颖的任务,例如看着从未见过的鞋子,然后用舌头成功抓住它。 (图片来源:汤姆·布勒(Tom Buehler)/麻省理工学院(SA)
还值得注意的是,实际上没有任何数据被人类标记。相反,该系统被团队称为“自我监督”,不需要任何人工注释。
机器人抓取的两种常见方法涉及特定任务的学习或创建通用抓取算法。这些技术都有障碍:特定于任务的方法很难推广到其他任务,并且一般的掌握还不够具体,无法处理特定任务的细微差别,例如将物体放在特定位置。
但是,DON系统实际上是在给定的对象上创建一系列坐标,这是一种视觉路线图,以使机器人可以更好地了解其需要掌握的内容以及在哪里。
该团队对系统进行了培训,以将对象视为构成更大坐标系的一系列点。然后,它可以将不同的点映射在一起以可视化对象的3D形状,类似于将全景照片与多张照片缝合在一起的方式。训练后,如果有人在对象上指定了一个点,则机器人可以拍摄该对象的照片,并识别并匹配点,以便能够在该指定点上拾取该对象。
这与UC-Berkeley的DexNet等系统不同,后者可以处理许多不同的项目,但不能满足特定的要求。想像一下一个18个月大的孩子’不了解您要玩哪个玩具,但仍然可以抓取很多物品,而四岁的孩子却可以做出反应“抓住卡车的红色末端。”

博士生卢卡斯·马努内利(Lucas Manuelli)与第一作者皮特·弗洛伦斯(Pete Florence)合作开发了一种系统,该系统利用先进的计算机视觉使Kuka机器人几乎可以拾取任何物体。 (图片来源:汤姆·布勒(Tom Buehler)/麻省理工学院(SA)
在对毛毛虫玩具进行的一组测试中,由DON供电的Kuka机械手臂可以从一系列不同的配置中抓住玩具的右耳。这表明,除其他外,该系统具有在对称对象上区分左右的能力。
在对一堆不同的棒球帽进行测试时,DON可以挑选出特定的目标帽子,尽管所有帽子的设计都非常相似-并且以前从未在训练数据中看到过这些帽子的图片。
“在工厂中,机器人通常需要复杂的零件进料器才能可靠地工作,”佛罗伦萨说。 “但是像这样的能够理解物体方向的系统只需要拍照,就能够相应地抓住和调整物体。”
将来,该小组希望将系统改进到可以更深入地了解相应对象的位置来执行特定任务的位置,例如学习如何抓握对象并以清理办公桌等最终目的来移动它。
该小组将于下个月在瑞士苏黎世举行的机器人学习大会上发表有关该系统的论文。
编辑’s Note: 本文经以下机构的许可重新发布 麻省理工学院新闻 .
告诉我们你的想法!