听这篇文章
|
英伟达 Corp.’的研究团队已经致力于应用图形处理单元或GPU技术来加速强化学习。这家总部位于加利福尼亚州圣克拉拉的公司上周宣布了Isaac Gym的预览版,该产品是用于人工智能和机器人研究的新物理仿真环境。
强化学习(RL)是机器学习中最有前途的研究领域,并且在解决复杂问题方面显示出巨大的潜力, 英伟达 。基于RL的系统在具有挑战性的任务中已经达到了超人的性能,例如经典策略游戏,例如 围棋 像这样的实时计算机游戏 星际争霸 和 刀塔 .
此外,强化学习方法也有望为机器人应用带来前景,例如 解决魔方 or 通过模仿动物来学习运动。 英伟达 声称现在可以更轻松地进行RL培训,因为曾经需要数千个CPU(中央处理单元)核心的任务现在可以通过Isaac Gym的单个GPU进行培训。
具有Isaac Gym和NVIDIA GPU的RL超级计算机
到目前为止,大多数机器人技术研究人员被迫使用CPU内核集群进行训练RL算法所需的物理精确仿真。在一个比较著名的项目中,OpenAI团队使用了将近30,000个CPU内核(由920台计算机组成,每个计算机具有32个内核)来训练其机器人来解决魔方。
在类似的任务中, 学习灵巧的手部操纵 开放AI 使用了384个系统的集群,这些集群具有6,144个CPU内核和八个Volta V100 GPU。它需要将近30个小时的培训才能达到最佳效果。对于复杂的物理和动力学,许多接触以及高维连续控制空间,这种手部立方体对象定向对于灵巧操作而言是一项艰巨的任务。
Isaac Gym包括此多维数据集处理任务的示例,供研究人员重新创建 开放AI 实验 。该示例支持训练递归神经网络和前馈神经网络,以及物理性质的域随机化,有助于模拟到真实的转换。 英伟达 表示,借助Isaac Gym,研究人员可以在大约10小时内在单个A100 GPU上获得与OpenAI超级计算机相同的成功水平。
端到端GPU RL
Isaac Gym通过利用NVIDIA的PhysX GPU加速来实现这些结果 模拟 引擎,从而可以收集机器人RL所需的体验数据。
英伟达 称,除了快速的物理模拟外,Isaac Gym还支持在GPU上进行观察和奖励计算,从而避免了明显的性能瓶颈。特别是,消除了GPU和CPU之间昂贵的数据传输。
该公司表示,以这种方式实施后,Isaac Gym可以实现完整的端到端GPU RL流水线。
艾萨克体育馆提供API
Isaac Gym提供了一个基本的应用程序编程接口(API),用于使用机器人和对象创建和填充场景,并支持从URDF和MJCF文件格式加载数据。每个环境可根据需要重复多次,并且可以在不与其他环境交互的情况下同时进行模拟。
Isaac Gym提供了一个基于PyTorch张量的API以访问物理模拟工作的结果,从而允许使用PyTorch JIT运行时系统构建RL观察和奖励计算,该系统将将这些计算的python代码动态编译为CUDA代码,并在GPU。
观测张量可以用作策略推断网络的输入,并且所产生的动作张量可以直接反馈到物理系统中。 英伟达 表示,在整个学习过程中,观察,奖励和行动缓冲区的部署都可以保留在GPU上,从而无需从CPU读取数据。
英伟达 表示,此设置允许在单个GPU上同时提供数万个环境,从而使研究人员可以轻松地运行以前需要在其台式机本地本地安装整个数据中心的实验。

资料来源:NVIDIA
Isaac Gym还包括基本的近端策略优化(PPO)实现和简单的RL任务系统,但是用户可以根据需要替换其他任务系统或RL算法。同样,虽然所包含的示例使用PyTorch,但用户还应该能够通过一些进一步的定制与基于TensorFlow的RL系统集成。
英伟达 列出了Isaac Gym的以下附加功能:
- 支持各种环境传感器–位置,速度,力,扭矩等。
- 物理参数的运行时域随机化
- Jacobian /逆运动学支持
该公司表示,其研究团队已将Isaac Gym应用于众多项目, 在其博客上可用.
英伟达 Isaac Gym入门
英伟达 为其Isaac软件开发人员’s kit (SDK) 有空 去年。它建议对机器人技术的强化学习感兴趣的研究人员或学者 下载 and try Isaac Gym.
Isaac Gym的核心功能将作为NVIDIA Omniverse平台和NVIDIA的一部分提供 艾萨克·辛 ,它是基于Omniverse构建的机器人仿真平台。 英伟达 表示,在此之前,它将向研究人员和学者提供此独立预览版,以展示基于GPU的端到端RL的可能性,并有助于加速他们的工作。
告诉我们你的想法!