有策略地追逐撒欢儿

这次机器狗学习的新技能里，最强的一项还是玩游戏。

机器狗不仅能遵守规则，还能 自己想出策略赢比赛 ，可能比真狗子还要聪明些。

具体来看，这是一个障碍追逐比赛，受到“World Chase Tag”启发，规则如下：

研究人员设置了不同游戏难度，最简单的就是空旷场地：

玩游戏过程里，机器狗很明显是有策略的。

比如，一般等到躲避者离棋旗子较远时，追击者才会发起猛攻，把它逼到死角，游戏结束。

如果追击者发现躲避者离旗子很近，自己根本没机会追上它时，它会先放弃追逐，等待下一个旗子出现：

有障碍物干扰也没关系，俩狗子一样玩得很6：

而能够有如此表现，并不是机器狗从一开始就拿这个游戏训练。

它其实是基于自己已经学到的一些动作、知识和技能，来应对这个游戏场景。

具体怎么实现？往下看。

学了真·狗的数据

研究一共分为三个阶段。

学习动物运动姿态将运动姿态和外界感知联系起来附加网络获取和复杂任务有关信息

第一阶段，是通过游戏中常用的动作捕捉系统，通过 收集真狗的姿态数据 ，包括走、跑、跳、站立等动作，在仿真器中构建一个模仿学习任务。

然后将这些数据中的信息抽象并压缩到深度神经网络模型中，使其在涵盖运动姿态信息的同时，还具有一定可解释性。

腾讯RoboticsX机器人实验室和腾讯游戏合作，用游戏技术提高了仿真引擎的准确性和高效性，同时游戏制作和研发过程中积累了多元的动捕素材。

这些技术以及数据对基于物理仿真的智能体训练以及真实世界机器人策略部署也起到了一定的辅助作用。

在模仿学习的过程中，神经网络仅接受机器狗的 本体感知信息作为输入 ，例如机器人身上电机的状态等。

再下一步，模型引入周边环境的感知数据，例如通过其他传感器“看到”的脚下的障碍物。

第二阶段，通过额外的网络参数，将第一阶段掌握的动物姿态和外界感知联系在一起。

这样机器狗就能通过已经学会的动作，来应对外界环境。

当机器人能够适应多种复杂的环境后，这些将动物姿态与外界感知联系在一起的知识也会被固化下来，存在神经网络结构中。

然后机器狗就能自如上楼梯了。

或者在不连续、不平整地面上奔跑：

然后就到了最后一阶段，让机器狗根据上面学会的技能，去解决实际问题

也就是上面提到的做游戏环节。

据介绍，游戏中机器狗的所有控制策略都是神经网络策略。

在仿真中进行学习并通过 zero-shot transfer (零调整迁移），让神经网络模拟人类的推理方式，来识别从未见过的新事物，并把这些知识部署到真实机器人上。

比如在预训练模型中学会了躲避障碍物的知识，那么在游戏里设置障碍，机器狗也能轻松应对。

本次研究新进展由 腾讯Robotics X机器人实验室 带来。

该实验成立于2018年，目前推出的机器人项目包括机器狗Max一代/二代、机器狗Jamoca、轮式机器人Ollie、自平衡自动驾驶摩托车等。

值得一提的是，之前UC伯克利的学者也将一种“真狗子”的训练方法，用在了机器狗上。

吴恩达开山大弟子Pieter Abbeel等，让机器狗自己在地上打滚一个小时，学会了走路。

而去年腾讯发布机器狗Max二代时，一段小花絮里，这狗会“扑脚”、“撒欢跑”，确实有家里毛孩子那味儿。

（当然，如果想让它成为一只听主人话的狗，通过指令即可对其发号施令。）

咱就是说，现在机器狗的发展方向，不朝着翻跟头卷，反倒是要和真狗子“抢饭碗”了吗？

参考链接： /lifelike-agility-and-play/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动