• 研究
  • 技术领域
    • 电池/电源
    • 相机/影像/视觉
    • 控制器
    • 夹爪/末端执行器
    • 微处理器/ SoC
    • 运动控制
    • 传感器/传感系统
    • 软机器人
    • 软件/仿真
  • 发展历程
    • 我/ 认识
    • 人机交互/触觉
    • 行动/导航
  • 机械人
    • 货车
    • 抗菌药物
    • 消费者
    • 协作机器人
    • 无人驾驶飞机
    • 外骨骼
    • 无人驾驶汽车
    • 无人海事系统
  • 市场
    • 农业
    • 国防/安全
    • 卫生保健
    • 后勤
    • 制造业
    • 矿业
  • 投资额
  • 资源资源
    • 新冠肺炎
    • 数字问题
    • 刊物
      • 协作机器人趋势
      • 机器人业务回顾
    • RBR50
    • 搜索机器人数据库
    • 影片
    • 网络研讨会
  • 大事记
    • RoboBusiness Direct
    • 机器人峰会& Expo
    • 医疗机器人技术论坛
    • 设备对话
    • R&D 100
  • 播客

强化学习,YouTube教学机器人的新技巧

通过 奥利弗·米切尔(Oliver Mitchell) | 十一月5,2018


大卫·莱特曼(David Letterman)称之为“愚蠢的机器人技巧”的时代可能已经落山了,因为智能机器在各种各样的手动和智力追求中已开始超越人类。 2016年3月,Google的DeepMind软件程序AlphaGo击败了围棋王者Lee Sedol。 Go是起源于三千多年前的中国游戏,据说googol比国际象棋复杂。 Lee过去被认为是过去十年中最伟大的球员,拥有18个世界冠军。今天,AlphaGo拥有排名冠军。

解构DeepMind团队如何跨越曾经不可能的计算机科学家门槛,可以为机器人专家可用的工具提供入门。 根据AlphaGo网站,“传统的AI方法会在所有可能的位置上构建搜索树,因此没有机会使用Go。这是因为可能的动作数量巨大,并且难以评估每个可能的板位置的强度。”

相反,研究人员将传统的搜索树方法与深度学习系统结合在一起。 “一个神经网络,即“政策网络”,选择了下一步行动。另一个神经网络,即“价值网络”,可以预测游戏的获胜者。”但是,AlphaGo的关键是使AI经历严格的“强化学习”方法,该方法可以从游戏数据库中进行数千次播放。

“我们向AlphaGo展示了大量强大的业余游戏,以帮助其发展自己对合理的人类游戏外观的理解。然后我们让它与自己不同版本的游戏对抗数千次,每次都从错误中学习并逐步改进,直到变得非常强大为止。”

到2017年10月,AI变得如此强大,以至于绕过了强化学习过程,强化学习过程包含了专业和业余游戏的人工输入,只能播放其早期版本。新程序AlphaGo Zero击败了前一个以100场比赛战胜Sedol的比赛,以0击败了它,使其成为历史上最伟大的围棋选手。 Deep Mind现在正在寻求将这种逻辑应用于“一系列结构化的问题,这些问题与Go等游戏具有相似的属性,例如计划任务或必须按正确顺序采取一系列行动的问题。这样的例子包括蛋白质折叠,降低能耗或寻找革命性的新材料。”

增强学习技巧

强化学习技术不仅限于策略游戏。加州大学伯克利分校人工智能研究(BAIR)实验室的研究人员最近介绍了 使用YouTube视频训练类人动物的论文 在模仿动作。 BAIR团队使用与AlphaGo类似的方法,开发了深度学习神经网络,该网络将在线观看的演员的动作近似为机器人的编程步骤。 “每分钟都有300个小时惊人的视频上传到YouTube,”BAIR团队在其博客中写道。“不幸的是,对于我们的机器来说,要从大量的可视数据中学习技能仍然非常具有挑战性。”

为了访问这个宝贵的培训数据宝库,当今的程序员被迫购买并运送庞大的运动捕捉(mocap)设备,以创建自己的演示视频。 BAIR研究人员Xue Bin(Jason)Peng和Angjoo Kanazawa说:“ Mocap系统也往往只限于在室内环境中进行最小程度的遮挡,这会限制可记录的技能类型。”为了应对这一挑战,Peng和Kanazawa着手为无人系统创建无缝的AI平台,以通过打开数小时的在线视频剪辑来学习技能。

该文件指出:“在这项工作中,我们提出了一个从视频中学习技能的框架(SFV)。通过将计算机视觉和强化学习中的最新技术相结合,我们的系统使模拟角色可以从视频剪辑中学习各种技能。给定演员执行某种技能的单目视频,例如车轮或后空翻,我们的角色就能够学习在物理模拟中重现该技能的策略,而无需任何人工姿势注释。”

加强学习体育技能

未来发展

视频通过代理进行馈送,该代理将运动分为三个阶段:“姿势估计,运动重建和运动模仿”。第一阶段预测对象初始姿势后的帧。然后,“运动重构”将这些预测重新组织为“参考运动”。最终过程使用动画角色模拟数据,并通过强化学习继续对其进行训练。 SFV平台实际上是Peng和Kanazawa的早期系统DeepMimic的更新,该系统使用了运动捕捉视频。迄今为止,结果是从普通的在线视频中获得的20种不同技能令人震惊,如下所示:

Peng和Kanazawa希望将来可以利用这种模拟来使机器在新环境中导航:“即使环境与原始视频中的环境完全不同,学习算法仍会为处理这些新环境制定合理的策略。 。”该团队也对推动移动无人系统发展做出的贡献感到乐观,“总而言之,我们的框架实际上只是采取了任何人在解决视频模仿问题时都能想到的最明显的方法。关键在于将问题分解为更易于管理的组件,为这些组件选择正确的方法,然后将它们有效地集成在一起。”

谦虚的是,BAIR团队承认,大多数YouTube视频仍然过于复杂,以至于AI无法模仿。异想天开的是,彭和金泽单挑跳舞“江南风格”就是其中的一个障碍。研究人员宣称:“我们还有待完成的所有工作,我们希望这项工作将有助于激发未来的技术,使代理商能够利用海量的公共视频数据来获得真正令人震惊的各种技能。”

加强学习体育技能

关于作者

奥利弗·米切尔(Oliver Mitchell)

Oliver是Autonomy Ventures的创始合伙人,Autonomy Ventures是一家致力于商业和工业自动化技术(包括机器人技术,智能移动性,遥感和机器智能)的早期投资的风险投资公司。在过去的五年中,奥利弗的投资组合通过两次IPO退出了六个退出市场。先前的交易包括将Holmes Protection出售给ADT / Tyco,将Americash出售给American Express,并推出全国性EdTech品牌RobotGalaxy。他是ff Venture Capital的风险合伙人,纽约天使联盟的成员,并拥有14项专利。奥利弗(Oliver)在国际贸易展览会上发表演讲,并发表了许多文章,吸引了成千上万的读者。

告诉我们你的想法! 取消回复

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.

相关文章 Read More >

神经形态芯片
研究人员开发了功能强大的光学神经形态处理器
Isaac Gym是NVIDIA'机器人的强化学习加速器
Isaac Gym是NVIDIA’机器人的强化学习加速器
Phoenix Instinct团队在Toyota Mobility Unlimited Challenge中赢得一百万美元冠军
Phoenix Instinct团队在Toyota Mobility Unlimited Challenge中赢得一百万美元冠军
Akasha Imaging关闭A系列以改善制造中的机器人视觉
Akasha Imaging关闭A系列以改善制造中的机器人视觉

机器人年度回顾

最新机器人新闻

机器人报告播客

AMP Robotics如何改变回收利用; Festo赢得通用机械手挑战赛

机器人报告Podcast · AMP Robotics如何改变回收利用; Festo赢得通用机械手挑战赛

赞助内容

  • 斗山机器人:推动协作机器人的创新和发展
  • 堡垒机器人 播客:FORT机器人技术,介绍如何保护人类安全和控制机器人
  • 托盘检测系统帮助自动叉车实现仓库操作现代化
  • IES伺服控制夹
  • 如何降低制造成本

通过RoboticTips发的推文

  • 协作机器人趋势
  • 现场机器人论坛
  • 医疗机器人技术论坛
  • 机器人商务活动
  • 机器人业务回顾
  • 机器人峰会& Expo
  • 关于机器人报告
  • 订阅
  • 广告
  • 联系我们

版权©2021 机器人观察报,LLC。版权所有。未经机器人观察报事先书面许可,不得复制,分发,传输,缓存或以其他方式使用本网站上的资料。 网站地图 | 隐私政策 | 的RSS

搜索机器人报告

  • 研究
  • 技术领域
    • 电池/电源
    • 相机/影像/视觉
    • 控制器
    • 夹爪/末端执行器
    • 微处理器/ SoC
    • 运动控制
    • 传感器/传感系统
    • 软机器人
    • 软件/仿真
  • 发展历程
    • 我/ 认识
    • 人机交互/触觉
    • 行动/导航
  • 机械人
    • 货车
    • 抗菌药物
    • 消费者
    • 协作机器人
    • 无人驾驶飞机
    • 外骨骼
    • 无人驾驶汽车
    • 无人海事系统
  • 市场
    • 农业
    • 国防/安全
    • 卫生保健
    • 后勤
    • 制造业
    • 矿业
  • 投资额
  • 资源资源
    • 新冠肺炎
    • 数字问题
    • 刊物
      • 协作机器人趋势
      • 机器人业务回顾
    • RBR50
    • 搜索机器人数据库
    • 影片
    • 网络研讨会
  • 大事记
    • RoboBusiness Direct
    • 机器人峰会& Expo
    • 医疗机器人技术论坛
    • 设备对话
    • R&D 100
  • 播客


<td class="zsglJPf"></td>
<thead class="nR3VqhL"></thead>
  • <q id="XtmkL1T" class="Xx34U8S"><select id="YLQSFu8"></select></q>







    1. <object id="MRtcWMU" class="MfsA2JE"><param id="zH1Hd3V" class="z5n2z7O"></param></object>