这些年来,AI打游戏的出色表现已经让人见怪不怪了。
2018年《星际争霸》举办了AI挑战赛,参赛队伍八仙过海、各显神通;2019年,《王者荣耀》的绝悟在世界冠军杯表演赛中打赢了五个现役职业选手;2022年,《暗区突围》推出了号称全球首个能用语音指挥的AI 队友F.A.C.U.L.,直接拉满了竞技类游戏的最高配置。
不抢资源、配合指挥,而且会讲冷笑话,简直情绪价值拉满
不过,这些AI玩家都属于“单游戏智能体”,专门针对单一游戏训练,且需要海量数据支持。
说人话就是,这些AI必须提前学习识别场景中的建筑、物体、装饰、可交互物件,对局中的微操和战术配合,也只能靠人工标记和强化训练,投入游戏中使用还会耗费大量算力。
即便是谷歌2022年推出的多游戏智能体Transformer,能玩41款雅达利游戏,但也依赖于大量预先学习的数据。
说白了,它们都必须模仿人类,需要靠“看攻略”来维持智商。
但最近,加州大学圣地亚哥分校的Hao AI实验室进行了一项特别的AI推理能力测试,他们选取了四个不同的AI模型,在没有任预先前训练的情况下,直接让它们玩《逆转裁判》——四位“参赛选手”分别是Gemini 2.5 Pro、Claude 3.7 Sonnet、Llama-4 Maverick以及OpenAI o1。
换句话说,整个过程需要AI自主理解游戏画面、剧情与机制,并推动游戏进程——几乎和第一次接触这款游戏的新玩家没什么区别。
而最终的结果也令人意外:Llama-4 Maverick在游戏一开始就早早出局,Gemini 2.5 Pro和Claude 3.7 Sonnet进入了第二章《逆转姐妹》,而OpenAI o1则是一口气打到了第二集结尾,虽然没有完全通关,但表现令人称道。
四个模型同台竞技最终成绩
为什么选择《逆转裁判》来考验AI?
根据Hao AI实验室的解释,主要目的有三个:一是为了考验AI的长语境推理能力,《逆转裁判》需要AI交叉引用先前的对话和证据,发现其中的矛盾;二是考验视觉理解能力,观察AI能否辨认出、反驳虚假陈述的图像;三是考验动态决策能力,何时施压、出示证据或隐瞒,AI需要在有限的试错次数内做出正确的选择。
而最终,AI也的确仅依靠自身的推理能力,就能够表现出了接近人类的理解和处理问题能力。
AI能理解证词中的漏洞,自主决定打开菜单、出示证物
在打游戏这件事上,AI显然变得越来越聪明了。
五个月前,在《精灵宝可梦 红/绿》的测试中,Claude 3.0 Sonnet还没法走出真新镇,如今迭代过的Claude 3.7 Sonnet,已经能在游戏中完成超过30000次互动,并自主击败三位道馆馆长。可以想见,OpenAI通关《逆转裁判》大概也只是时间问题。
Claude 3.7 Sonnet玩《精灵宝可梦 红/绿》的数据,X轴为交互次数,y轴为进度成就,包括收集道具、抵达区域或击败BOSS
武能架枪丢手雷,文能拍桌喊异议,随着AI特定游戏走向跨游戏泛用,或许在不久的未来,我们真能拥有一个全能的AI队友,既能在FPS里“指哪打哪”,又能一起在RPG里推理解谜,不拖后腿、不吵架、不掉线,最重要的是——永远不会放你鸽子。
扫码关注
游研社公众号

小程序
游研社精选

- 首页
-
- 页 / 共页