谷歌AI为达目的，把自己的身体改造成了这样……

发布时间：2018-10-23 11:17:36 所属栏目：评测来源：强化栗

导读：强化学习 AI 打游戏，早就不稀奇了。智能体在虚拟世界里死去活来，慢慢了解怎样的策略能让自己活得更长，得到更多的奖励。但 AI 可能不知道，游戏打不好，也可能是智能体的身体结构有问题。如果可以一边学策略，一边改身材，或许能成就更伟大的强化学习

副标题[/!--empirenews.page--]

△ 今天的主角，可能是 AI 界的橡胶果实了

强化学习 AI 打游戏，早就不稀奇了。

智能体在虚拟世界里死去活来，慢慢了解怎样的策略能让自己活得更长，得到更多的奖励。

但 AI 可能不知道，游戏打不好，也可能是智能体的身体结构有问题。

如果可以一边学策略，一边改身材，或许能成就更伟大的强化学习 AI。

于是，来自谷歌大脑的 David Ha，为自家 AI 制定了双管齐下的特殊训练计划：

智能体不断调整自己的身材，比如腿的长度，找到最适合当前任务的结构；同时进行策略训练。

△身材修炼前 (左) vs 身材修炼后 (右)：速度明显不一样

你看，智能体把腿跑细了，速度也快了许多。

除此之外，还可以培养越野能力。

在沟壑纵横的旅途中，原始身材的智能体时常翻车。

△ 改造前，翻车日常
△ 改造前，翻车日常

但炼成优雅身型之后，翻车事件几乎不存在了，策略训练时间也缩减到原来的 30%。

身材科学了，策略也就好学了。

那么，是怎样的婀娜身段，能在降低时间成本的同时提升性能？再看一会儿你就知道了。

秀外慧中，有何密方？

从前的智能体，形状结构大都是固定的，只关注策略训练。可是，系统预先设定的身材，通常都不是 (针对特定任务) 最理想的结构。

因此，如同上文所说，策略要学，身材优化也要一起学。

谷歌AI为达目的，把自己的身体改造成了这样……

这样一来，只用策略网络的权重参数 (Weight Parameters) 来训练就不够了，环境也要参数化。

身体结构特征，比如大腿或小腿的长度、宽度、质量、朝向等等，都是这环境的组成部分。

这里的权重参数w，把策略网络参数和环境参数向量结合起来，便可以同时培养身材和技巧。

随着权重w的不断更新，智能体会越来越强。

谷歌AI为达目的，把自己的身体改造成了这样……

身材改造有没有用？只要和仅学策略、不改结构的智能体比一场，如果奖励分有提升，就表示 AI 找到了更适合这个环境的身型。

注意，为了修炼 AI 的冒险精神，研究人员把高难度动作的奖励扩大，引导智能体挑战自我。

身材改造，疗效甚好

比赛场地分两大块，一是基于 Bullet 物理引擎的机器人模拟库 Roboschool，二是基于 Box2D 物理引擎的 OpenAI Gym。

两类环境都经过了参数化，AI 可以学着调整里面的参数。

解锁高分姿势

首先，来到足球场 (RoboschoolAnt-v1) ，这里的智能体 Ant 是只四脚怪，每条腿分三截，由两个关节控制。腿是留给 AI 调节的，球状身躯是不可调节的。

△ 三截腿，最内侧的一截比较不明显
△ 三截腿，最内侧的一截比较不明显

任务很简单，跑得越远越好。

经过训练 (上图右) ，智能体最明显的变化是腿部更加细长了，且四条腿长短不一，打破了对称性。身材改变之后，步频也加快了许多，长腿怪更早穿过了棕色跑道。

看一下奖励分：在 100 次测试里，原始结构的得分是 3447 ± 251，而新结构的得分为 5789 ± 479，疗效显著。

△ 左为原始，右为身材训练后 (红线代表激光雷达)
△ 左为原始，右为身材训练后 (红线代表激光雷达)

然后，进入绿地场景 (BipedalWalker-v2，基于 Box2D，属于 Gym) 。这里的智能体是两足的，在“激光雷达”的指引下往前走。

任务是在规定时间内，穿越一片和平的地形 (这是简单版，充满障碍物的复杂版见下文) 。用分数来看，100 次 Rollout 超过 300 分就算任务成功。

原始身材获得了 347 分，优化后的身材则有 359 分。

谷歌AI为达目的，把自己的身体改造成了这样……

两边任务都成功了，但改造过结构的智能体除了瘦腿之外，两腿四截的长度都有变化，给了 AI 弹跳前进的新姿势。动作看上去更加轻松，分数也高过从前。

好身材，能加速策略学习

上文绿地的硬核版 (BipedalWalkerHardcore-v2) 在此：路途崎岖，千山万壑，一不小心就会堕入深渊。

David Ha 要在此证明，强健的身材能为智能体的策略学习带来加成，而不只是“两门功课同步学”那样粗暴的合体。

与之前的全面瘦腿不同，这次智能体的后腿，进化出了厚实的小腿，且长度和沟壑的宽度相近。

△ 红线代表激光雷达
△ 红线代表激光雷达

这样一来，在跨越鸿沟的时候，后腿就能架起一座桥，保护智能体平稳通过，不翻车。

与此同时，前腿承担了“危险探测器”的责任，侦查前方有怎样的障碍物，作为“激光雷达”的辅助，可以给后腿的下一步动作提供依据。

重点是，在这副新身材诞生的过程中，AI 已学会了通关策略，耗时仅 12 小时。对比一下，不做身材优化的原始训练方法，用时长达 40 小时 (前馈策略网络，96 个 GPU) 。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

AMD TRX40主板首测之华	ROG STRIX B365-F GAM
华硕TUF GAMING B550M	华硕ROG MAXIMUS XII