训练40个小时，AI打破了跑步游戏QWOP的世界纪录

收听文本 0:00/0:00

更高，更快，更智能。

多年前有款奇葩跑步模拟游戏《QWOP》，玩家只需越过障碍，以最快的速度跑完一百米即可。游戏名的四个字母也并非缩写或者什么奇怪的暗示语，而是对应了操控游戏的四个按键。

虽然它的操作看上去并不复杂，但在刚发布时，甚至一度被玩家评为“史上最难的跑步游戏”，原因则在于键盘上的Q、W、O、P四个按键控制的不是上下左右，而是人物的左右大腿和小腿，玩家需要交替控制不同关节来让游戏里的小人动起来。

将平时司空见惯的动作细化到肌肉层面，难度瞬间提升了数个档次。刚接触的玩家不要说跑，能移动个一两米已经是奇迹，还有许多玩家是靠膝盖一步步蹭到终点的，就像上面那样。

目前，《QWOP》百米跑的世界最高纪录为48秒34，是一位ID为gunmaneko的日本玩家创下的：

世界纪录排行榜

一个星期前，日本玩家保持了两个月的纪录被打破，只不过这次破纪录的并非人类，而是一位科学家花40个小时训练出来的AI。

在公布的视频中AI用47.34秒跑完了全程，超过世界纪录1秒

Wesley Liao是波士顿咨询中心的一名数据分析师，他一直很好奇在人工智能已经攻克了象棋、围棋乃至竞技游戏的今天，在面对一款规则完全不同的“沙雕”游戏时，究竟会如何应对。

因此他想到了《QWOP》这款操作难度极高的游戏。需要说明的是，Liao使用的训练方法当然不是将预设好的操作提前输入程序，而是像训练象棋围棋那样设定好奖惩机制，让AI像新手一样一步步掌握规则，最终摸索出最优方法。

在Liao给出的实验报告中，最开始这个名为“ACER”的AI和许多玩家一样，采用的是“蹭膝通关法”，即用膝盖一步步蹭到终点：

在掌握了基本的规则后，ACER并没有像人们预想的那样跑起来，而是学会了使用这种效率不高的前进技巧，而原因很简单：因为这是最稳妥的通关方式，人物摔倒的几率最小。

当发现ACER能够熟练过关后，Liao试图再教会它如何“跑”。为此他打算向AI提供一些人类高手的过关数据。这一点其实和DeepMind训练Alpha Go的情况类似——让AI模仿顶级棋手，然后再自己对弈。

只可惜Liao并不认识《QWOP》的游戏高手，只能先提供自己的试玩数据，而他目前的最好成绩仅有28米。

果不其然，在被“灌输”了水平不高的人类数据后，ACER刚开始时试图靠“跑”来完成游戏，只可惜它的动作重新回到了初学者水平：

这时的AI并不理解“迈腿”的意义是什么

后来，Liao终于找到了一位世界速通玩家来协助他完成实验。这位玩家向Liao提供了50场游戏数据，其中就包括一些人类玩家经常使用，但AI从没见过的高级技巧。

但就算这样，ACER也无法马上学会这些技巧，而且不能和之前自己掌握的经验相协调。在经历了自我训练，人类数据的双重作用下，它勉强学会了跑步，但速度还不够，最终的纪录是1分08秒，离世界纪录还有一段距离。

最终Liao突发奇想，重新创建了一个AI，只给它ACER的运行数据，同时调整奖惩制度，取消了一些特殊动作，比如“膝盖过度弯曲”的触发惩罚，原先设定这些机制是为了教会它如何像人类一样跑步，既然现在ACER的数据已经学会了，自然不需要这些额外的限制。

这次Liao取消了额外条件，让AI纯粹在速度方面做优化，最终在学习了ACER的跑步数据并结合自己近40个小时的训练后，新AI跑出了47.34秒的成绩，这已经打破了人类玩家所保持的纪录。

当然，速通榜单要求提交成绩的玩家为人类，所以这个纪录暂时无法被认可。但Liao做这项研究的目的显然不是为了破纪录这么简单，观察AI在不同游戏环境下的反应，观察它们如何学习，也许某一天这些经验又能反过来指导人类，这才是科学家们真正想看到的。

展开全文

扫码关注

游研社公众号

小程序

游研社精选

快速评论

热门评论

全部评论

评论时间

查看全部评论