大卫·莱特曼(David Letterman)称之为“愚蠢的机器人技巧”的时代可能已经落山了,因为智能机器在各种各样的手动和智力追求中已开始超越人类。 2016年3月,Google的DeepMind软件程序AlphaGo击败了围棋王者Lee Sedol。 Go是起源于三千多年前的中国游戏,据说googol比国际象棋复杂。 Lee过去被认为是过去十年中最伟大的球员,拥有18个世界冠军。今天,AlphaGo拥有排名冠军。
解构DeepMind团队如何跨越曾经不可能的计算机科学家门槛,可以为机器人专家可用的工具提供入门。 根据AlphaGo网站,“传统的AI方法会在所有可能的位置上构建搜索树,因此没有机会使用Go。这是因为可能的动作数量巨大,并且难以评估每个可能的板位置的强度。”
相反,研究人员将传统的搜索树方法与深度学习系统结合在一起。 “一个神经网络,即“政策网络”,选择了下一步行动。另一个神经网络,即“价值网络”,可以预测游戏的获胜者。”但是,AlphaGo的关键是使AI经历严格的“强化学习”方法,该方法可以从游戏数据库中进行数千次播放。
“我们向AlphaGo展示了大量强大的业余游戏,以帮助其发展自己对合理的人类游戏外观的理解。然后我们让它与自己不同版本的游戏对抗数千次,每次都从错误中学习并逐步改进,直到变得非常强大为止。”
到2017年10月,AI变得如此强大,以至于绕过了强化学习过程,强化学习过程包含了专业和业余游戏的人工输入,只能播放其早期版本。新程序AlphaGo Zero击败了前一个以100场比赛战胜Sedol的比赛,以0击败了它,使其成为历史上最伟大的围棋选手。 Deep Mind现在正在寻求将这种逻辑应用于“一系列结构化的问题,这些问题与Go等游戏具有相似的属性,例如计划任务或必须按正确顺序采取一系列行动的问题。这样的例子包括蛋白质折叠,降低能耗或寻找革命性的新材料。”
增强学习技巧
强化学习技术不仅限于策略游戏。加州大学伯克利分校人工智能研究(BAIR)实验室的研究人员最近介绍了 使用YouTube视频训练类人动物的论文 在模仿动作。 BAIR团队使用与AlphaGo类似的方法,开发了深度学习神经网络,该网络将在线观看的演员的动作近似为机器人的编程步骤。 “每分钟都有300个小时惊人的视频上传到YouTube,”BAIR团队在其博客中写道。“不幸的是,对于我们的机器来说,要从大量的可视数据中学习技能仍然非常具有挑战性。”
为了访问这个宝贵的培训数据宝库,当今的程序员被迫购买并运送庞大的运动捕捉(mocap)设备,以创建自己的演示视频。 BAIR研究人员Xue Bin(Jason)Peng和Angjoo Kanazawa说:“ Mocap系统也往往只限于在室内环境中进行最小程度的遮挡,这会限制可记录的技能类型。”为了应对这一挑战,Peng和Kanazawa着手为无人系统创建无缝的AI平台,以通过打开数小时的在线视频剪辑来学习技能。
该文件指出:“在这项工作中,我们提出了一个从视频中学习技能的框架(SFV)。通过将计算机视觉和强化学习中的最新技术相结合,我们的系统使模拟角色可以从视频剪辑中学习各种技能。给定演员执行某种技能的单目视频,例如车轮或后空翻,我们的角色就能够学习在物理模拟中重现该技能的策略,而无需任何人工姿势注释。”
未来发展
视频通过代理进行馈送,该代理将运动分为三个阶段:“姿势估计,运动重建和运动模仿”。第一阶段预测对象初始姿势后的帧。然后,“运动重构”将这些预测重新组织为“参考运动”。最终过程使用动画角色模拟数据,并通过强化学习继续对其进行训练。 SFV平台实际上是Peng和Kanazawa的早期系统DeepMimic的更新,该系统使用了运动捕捉视频。迄今为止,结果是从普通的在线视频中获得的20种不同技能令人震惊,如下所示:
Peng和Kanazawa希望将来可以利用这种模拟来使机器在新环境中导航:“即使环境与原始视频中的环境完全不同,学习算法仍会为处理这些新环境制定合理的策略。 。”该团队也对推动移动无人系统发展做出的贡献感到乐观,“总而言之,我们的框架实际上只是采取了任何人在解决视频模仿问题时都能想到的最明显的方法。关键在于将问题分解为更易于管理的组件,为这些组件选择正确的方法,然后将它们有效地集成在一起。”
谦虚的是,BAIR团队承认,大多数YouTube视频仍然过于复杂,以至于AI无法模仿。异想天开的是,彭和金泽单挑跳舞“江南风格”就是其中的一个障碍。研究人员宣称:“我们还有待完成的所有工作,我们希望这项工作将有助于激发未来的技术,使代理商能够利用海量的公共视频数据来获得真正令人震惊的各种技能。”
告诉我们你的想法!