4 分钟对打 300 多次,谷歌教会机器人打乒乓球
- 时间:
- 浏览:0
资料来源:IT家想打乒乓球,可以找机器人打架。当乒乓球爱好者和机器人对战时,根据机器人的发展趋势,我们真的不知道谁输了谁赢。机器人具有灵活的操作性、灵活的腿部运动和出色的抓取能力,在各种任务中得到了广泛的应用。但是,在与人类密切相关的任务中,机器人又如何呢?以乒乓球为例,它需要高水平的合作,而且球的移动速度非常快,这给算法带来了很大的挑战。乒乓球比赛的速度和准确性是第一位的,这对学习算法提出了很高的要求。同时,这项运动具有高度结构化(具有固定和可预测的环境)和多智能体协调(机器人可以与人类和其他机器人对抗)两个特点,使其成为研究人机交互和强化学习问题的理想实验平台。谷歌的机器人研究团队建立了一个平台,用于研究机器人在多人、动态和互动环境中学习时所面临的问题。谷歌还在博客上发布了两个项目:Iterative-Sim2Real(i-S2R)和GoalsEye。在i-S2R中,机器人可以与人类进行超过300场比赛,而在GoalsEye中,机器人可以从业余爱好者那里学习有用的策略(目标条件策略)在i-S2R策略中,机器人和人类可以相互对抗,虽然机器人的抓地力不专业,但它不会错过球。
你来找我,这是一件很好的事情,发挥良好的球感。GoalsEye策略可以让球回到桌子上指定的位置。
i-S2R:与模拟器的人类合作游戏在这个项目中,我们的目标是让机器人学习与人类合作,也就是说,尽可能长时间地与人类竞争。直接训练人类玩家既繁琐又耗时,因此Google采用了一种基于模拟的方法。然而,一个新的问题是,基于模拟的方法很难精确模拟人类行为和闭环交互任务等。在i-S2R中,Google提出了能够在人机交互任务中学习人类行动的模型,并将其在机器人乒乓球平台上实例化。谷歌已经建立了一个系统,可以与业余人类玩家一起实现340次点击(见下文)
人类和机器人进行4分钟的比赛,学习人类行为模型多达340次,机器人要准确地学习人类行为,就存在以下问题:如果从一开始就没有足够的机器人策略,我们就无法收集有关人机交互的高质量数据。但是,如果没有人类行为模型,我们就无法从一开始就掌握机器人的策略。这是一个有点复杂的问题,比如先有鸡还是先有蛋的问题。一种方法是直接在现实世界中训练机器人的策略,但这通常是耗时且昂贵的,并且存在与安全相关的挑战,如果涉及到人类的话,这一挑战会变得更加严重。如下图所示,i-S2R使用简单的人类行为模型作为近似起点,在模拟训练和现实世界部署之间交替进行。每次迭代都会调整人类行为模型和策略。
i-S2R方法谷歌将实验结果按玩家类型细分:初学者(40%)、中级(40%)和高级(20%)从实验结果来看,无论是初学者还是中级(80%的玩家),i-S2R都明显优于S2R +FT(简单到真实+精细调谐)
按播放器类型列出的i-S2R结果。GoalsEye:准确击中指定位置在GoalsEye中,谷歌还展示了如何结合行为克隆技术来学习精确的目标策略。在这里,谷歌专注于乒乓球的准确性,希望机器人能够精确地将球放回桌子上的任何位置。它还采用了LFP(从游戏中学习)和GCSL(目标条件监督学习)
目标眼策略瞄准直径20厘米的圆(左)人类玩家也可以瞄准同样的目标(右)在最初的2,480次演示中,谷歌的训练策略准确地击中了半径为30厘米的圆形目标。经过大约13,500次演示,球的准确率提高到了43%(右下角)