不止会下棋:星际AI争霸史

和所谓的“打电脑”不同,玩《星际争霸》的AI并不能像游戏内置的“电脑”那样获取底层数据,所以能按照人类的思维方式向游戏下达指令,基本上人类可以做到哪些事情,AI也就只能做到这个地步。

趁着阿尔法狗重出江湖的东风,有关人工智能的话题又火了起来。只不过今年这场人机大战更加充满悲情色彩,因为谁都知道柯洁必败无疑。感伤之余,人们开始对另一个话题有了更大的兴趣:既然人类已不是机器人的对手,那么问题来了,机器人技术哪家强? 

其实,在星际争霸的圈子里,早就有一群人在默默探索这个问题,他们是一群热爱星际的程序员,他们的梦想是开发出最会玩星际的AI机器人,他们每年都会举行各种各样的AI比赛一决高下,其中最有名的一项赛事,当属交互数字娱乐AI协会主办的AIIDE星际大赛。 

不要误会,相对于被人工智能各种横扫的棋坛,游戏这一行暂时还没有诞生能够击败顶尖人类高手的AI。这不仅是水平所限,也与AI程序员的理念有关。相比战胜人类这个目标,他们更希望自己的AI能具有像人类一样的行为和思维方式。能够突破图灵测试,才是AI程序员最大的追求。所谓比人类更像人类的AI,才是最牛逼的AI。 

下面,在进入正题之前,我还想先试着回答一个常常被人提起的争议性问题:玩星际的AI算作弊程序吗? 

DeepMind与暴雪的合作,意味着当前广泛应用的AI模式得到了官方的认可

这里谨以我个人的名义告诉大家:不算。因为当前所有的星际AI都是采用母巢之战的编程接口BWAPI开发而来,而这套API又是对商业版的母巢之战游戏本体进行逆向工程搞出来的,因此并不触及最底层的后台核心机密。在BWAPI的制约下,AI基本上只能按照人类的思维方式向游戏下达指令,基本上人类可以做到哪些事情,AI也就只能做到这个地步。 

尤其是AI的可视范围就是人眼可以看到的区域,那些进入战争迷雾的敌方单位,AI也是看不到的。别小看这一点,这意味着程序员只能依据有限的战场信息来编写AI的行动方案。如此一来,他们创造出来的AI程序主要还是竞争性而非欺骗性的。那些将AI称为“挂比”的说法是不靠谱的。 

但我们也应该看到,API接口毕竟是直接往内存里进行读写操作的,这本身就比使用键盘鼠标做接口的人类具有先天的优势:更快的反应、更高的操作效率,都是无可避免的。为了所谓的fair play,难道还要对AI的APM限速不成,还是真的要像某些人嚷嚷的,非要给AI装上机械臂和摄像眼才算公平?大家忘了吗,对极限计算和操作的追求不正是我们开发人工智能的初衷么。至于机械臂,恐怕是连谷歌都还未掌握的黑科技。它在宣布进军星际2人机对战领域之后,依然是在API上做文章。 

用机械臂玩游戏真的是人类发展人工智能的初衷么

那么问题又来了,现在的星际AI大赛为何不用最新的星际2,而还在使用十几年前的母巢之战呢?关于这一点,你可以看看暴雪发布的星际2最终用户许可协议(EULA),通篇都在警告大家不要对星际做任何手脚,任何破解和Mod行为都是不被允许的,如果你不信邪,也许能见识下传说中暴雪律师函的样子。至于星际1的黑客行为,暴雪早持默许态度,甚至还为这次大赛提供了奖金。 

暴雪特意将这一段加上下划线并标粗


AIIDE 2010

第一届星际AI大赛就吸引了众多的目光,共有26名参赛者参加四个项目的角逐,连史艾研发中心都派出了自己的代表。前三个比赛项目都是在一定限制条件下的研究性对战,算是垫场赛。只有第四个项目才是本次大赛的主菜:开启战争迷雾下的无限制全场比赛,当然,AI可通过API做出的一些超常规动作,比如滑动建筑,操作地面单位越墙行走都是不被允许的。赛事采用随机配对的双败淘汰制,地图池包括五张当时流行的职业比赛用图,这些地图会事先告知参赛者,但每场比赛的用图仍是随机抽取的。 

在不起飞的前提下让人族基地位移到矿石的跟前,是星际早期一个经典操作bug 

主赛的冠军由Overmind赢得,一个由加州伯克利分校开发的虫族bot,它在最后的决赛中打败了由一位独立制作人研发的Krasi0。Overmind非常喜欢使用强大而脆弱的飞龙。因为这个单位的行动力不受任何地形和障碍的限制,可以把人工势场这一经典的机器人局部寻路算法发挥到极致。 

所谓人工势场的原理是指:把机器人在工作环境中的运动看作是在一个人造受力场中的运动,其中目标对机器人产生引力,障碍物对机器人产生斥力,机器人在这两类力的合力作用下向目标前进。具体运用到比赛中,就是引力场吸引飞龙聚集起来,对目标发起攻击;斥力场让聚合的飞龙迅速散开,脱离敌人的反击火力——活脱脱的hit&run既视感 

Overmind与Krais0的最终决赛 

Overmind的总体战略是初期先造小狗和地刺炮台守卫初期扩张的地盘,同时搜集足够的资源造出第一批飞龙,并立即派到敌人基地周围展开骚扰。如果第一波攻势未能奏效,它就放慢节奏,四处巡逻,趁机除掉一切缺乏保护的单位,慢慢消耗敌人,最后再发动一波总攻赢下比赛。 

亚军krasi0则采用了纯防御型的人族战术,造了许多地堡、坦克和防空导弹。在积攒了一定的兵力后,它本打算派出一支机械化部队踏平敌军基地,怎奈被对方的飞龙骚扰得实在太厉害。其实在遇到Overmind之前,krasi0一直表现得很出色。只能说,Overmind的飞龙玩得实在太6了。

利用人工势场技术可将飞龙的Hit and Run战术发挥到极致


AIIDE 2011 

如果说第一届AIIDE还是试水性质的交流赛。那么第二年的星际AI锦标赛,真正有了正规大赛的样子。首先,取消了首届赛事的微管理比赛项目,只保留真刀真枪的全场较量。其次,所有参赛者,必须公开自己的AI机器人源代码。这样做完全是为后人着想,让新加入这个圈子的成员多借鉴前人的经验,少走弯路,这样他们做出的机器人必定会越来越强大。 

赛制也从之前的双败淘汰赛变成了三十循环赛,这意味着每两个对手之间就要打30场比赛(以后的场次还会越来越多)。我们知道,淘汰赛是比较依赖配对运气的(哪怕是双败),而循环赛剔除了所有的运气成分,最后决出的冠军一定就是最强的那个。 

这是一场看不到人类身影的星际大赛

这个最强冠军AI就是Skynet,它也垄断了日后多项大赛的桂冠,是AI界名副其实的BoxeR。作为一个神族bot,Skynet会使用许多经典实用的神族战术,比如初期的狂热者rush,中期的龙骑+狂热者经典组合,以及后期的狂热者+龙骑兵+金甲虫大军。它有着极为优秀的经济运营和稳健的初期防御,能够很好地应对更加崇尚进攻的UAlbertaBot(亚军)和Aiur(季军)。 

Skynet很会用龙骑放狂热的风筝

遗憾的是,首届冠军Overmind并没有参赛,一方面是他不希望公开自己的源代码,二是因为这个AI在遇到初期比较激进的对手时显得很脆弱,三大种族的rush都令它难以招架。倒是伯克利分校的另一群小孩搞出来了一个向前辈致敬的人族bot“Undermind”,并取得了第七名的不错成绩。 

下面笔者会以自己亲手开发的参赛AI,也就是亚军UAlbertaBot为例证(以下简称AB),来简单分析一下我们AI制作者的一些设计思路。AB在前一年也参赛了,当时还是虫族,这次改用神族,是因为我们从技术的角度发现,神族的战术更容易实施,在测试中也更具有一致性,容易掌控。 

星际AI大赛初期最多见的神族内战场景

AB最擅长使用初期激进的狂热者rush战术,这足以在短短几分钟内战胜大部分对手。即使初期的Rush没有彻底干趴对手,它也能成功转型中后期的龙骑战术。只是这一套对Skynet和Undermind就不那么有效了。Skynet的龙骑很会放风筝,经常用一个龙骑杀死好我几个狂热者。Undermind的战术就是初期多造几个地堡,很成功挡住了AB的初期rush。 


AIIDE 2012

2012年的星际AI大赛有十名“选手”角逐,虽然参赛者减少了,但比赛场次更多了。五天内一共打了8279场,每两个机器人之间要过招184次。最后决出的名次几乎是2011年的镜像版,只有亚军和季军调换了个位置。 

Skynet依靠强大的狂热龙骑+金甲虫大军连获两届大赛冠军 

Aiur的进步得益于它采用了一种新颖的战术,即早期的光子炮rush,这让其他许多机器人猝不及防。为了备战这次比赛,AB也做了一项重大更新,加入了一个叫做Sparcraft的作战仿真模块。以前,AB必须等到狂热者的生产数量达到一个阈值后,才会向敌人基地发动进攻,而且基本不懂撤退。现在,有了这个战斗拟真模块,AI可预先对一场遭遇战的胜负结果进行估计。如果它预测己方能赢,就会继续发动进攻。如果它预测敌人会胜,就会向自己的基地撤退。这种新战术在实战中被证明非常有效,不过Aiur的初期防御能力比前一年的版本提高了一大截,最终把AB掀下了亚军的宝座。 

AB的隐刀军团已横砍一片矿

AB还在之前狂热者rush的基础上,新开发出了龙骑rush和黑暗圣堂rush战术。至于具体要采用哪种战术对付特定的对手,它用到了蒙特卡洛树搜索中的PCB1公式来做出决策,同时它也会对存储的比赛数据进行强化学习,活脱就一穷人版阿尔法狗。通过不断的学习,它将自己的胜率从初期的60%提高到了后期的68.6%,效果十分显著。不过,这套战术选择机制也正是导致AB落后于Aiur的一大原因,因为龙骑rush和黑暗圣堂rush战术在实际执行的过程中效果时好时坏,这迫使战术决策算法最后还是会越来越倾向于选择最有效的狂热rush。换句话说,在之前的比赛中对其他战术的探索学习最后都白白浪费掉了。 


AIIDE 2013

AIIDE 2013只有八名选手报名参赛,为历届最低,但总体水平极高。他们总共打了5597场比赛,每两个机器人要互相交手200次,比赛用图有10张,每张图要打20把。占据头几名的依然是我们的老熟人。令人欣慰的是,AB这次终于修得正果,掀翻了过去两年的霸主Skynet。 

唯一的新面孔是位列第四的Ximp,这是由考门斯基大学的一名学生新编写的机器人。它使用的也是神族,但主打大后期。在前期进行经济扩张时主要依靠光子炮死守,同时在家里憋航母。等攒到了一定的规模后,再开出去横扫一切。可惜的是,Ximp的代码中存在一个致命的错误,一旦遇到Fortress这张图,就会百分之百崩溃,白白送给对手很多胜利。如果没有这些bug,它的排名肯定还要靠前。另外值得一提的是Aiur,这次虽然只拿到了第三名,但它的学习能力给人留下了深刻的印象,其胜率从初期的50%提高到了后期的58.1%。 

Ximp携航母大队强势来袭,它还知道优先干掉对自身威胁最大的光明圣堂

AB这次能夺冠,主要得益于更加强大的Sparcraft模拟包。该模块经过升级后,能够更正确地模拟出所有的伤害类型与护甲之间的对应关系,进而能够预估更准确的战斗结果。另外,它把前一版中不太成熟的龙骑和黑暗圣堂rush战术全部剔除,只保留屡试不爽的狂热rush。事实证明,这套简单粗暴的战术确实是AI界最牛逼的一招。 

唯一的例外是在对阵Skynet时,它选择了黑暗圣堂rush战术,因为根据过去的交手经验发现,Skynet最怵这一招。果然,这个极具针对性的战术选择成了双方直接对话中的胜负手。这样的做法虽然颇具投机性,但这不就是人类思维的体现么。在现实比赛中,人类选手一般都能提早知道下一个对手的身份,赛前自然会进行针对性的战术准备。 

星际AI一直解决不好的一个问题,大量本方农民被对方一个探路的小兵像溜猴一样溜得团团转

我们在2012版的AB中还发现了一个bug,它在开局初期会调集本方所有的农民和狂热者追逐前来侦查的敌军斥候,这严重耽搁了农民采矿进度,并推迟rush发起的时间。过去,AB正是因为这个bug输给了Skynet和Aiur很多盘。现在随着这个bug被修复,AB已然没有任何弱点,最终胜率比亚军Skynet高出了10个百分点。当然,这也要感谢那个新来者Ximp,它几乎输掉了与我们的所有对局,简直就是我们的幸运星。

 

AIIDE 2014

由于前一届的参赛者数量创下新低,这一次我们做了更多的宣传,希望吸引更多人前来参赛。我们还让那些参加了去年比赛但今年未报名的2013版机器人,自动入围本次赛事。这让我们一共集齐了18名参赛者,达到历史新高。参加本届比赛的AB、Aiur和Skynet都是原封不动的2013款,因为他们的作者这一年一直都在忙于参与各类比赛,根本没有时间进行强化更新。 

也许正是这个原因,导致昔日传统豪强全线溃退,新势力迅速崛起,表现抢眼。曾独霸一时的神族这次也被人族抢了风头。所有这一切,都宣告了新时代的来临。冠军被立命馆大学代表队的人族机器人IceBot夺走,其主创Kien Nguyen Quang是位越南人,目前在日本微软任职。其实,IceBot并不算新面孔,从2012年起就开始参赛,但从未取得过6名以上的成绩,这一次它经过了全面的升级之后,终于修得正果。它拥有非常稳健的初期防御能力,能够挡下大多数速攻型机器人的初期rush,然后再把比赛导入自己擅长的节奏。 

2014年冠军IceBot的背后的立命馆大学团队

去年的送分童子Ximp,也延续了它惯用的大后期航母战术,在进行了一些小幅更新和bug修复后,勇夺第二名。季军LetaBot则是一个来自荷兰马斯特里赫特大学的人族机器人。它的源代码是在AB 2012版的基础上发展而来的,并根据自身的特点进行了种族上的调整。相比之下,它的原身AB就有些原地踏步了,操起分毫未改的2013版赶鸭子上架,结果惨跌至第七。另一位昔日霸主Skynet也好不到哪儿去。倒是以前一直稳居前四却从未染指过冠军的Aiur,本次依旧处在万年老四的位置,简直就是星际AI界的“阿森纳”。 

 

经典AI剖析:Aiur

Aiur常年稳居前四的奥秘就藏在它的名字当中,其全称为“采用随机决策的人工智能”(Artificial Intelligence Using Randomness),本意就在于让对手无从判断自己的作战思路,自然也就不容易被针对。而作为卫冕冠军的AB,就是因为树大招风,导致本届出现了好几个专为打败它而设计的机器人程序,被针对得很惨。Aiur的开发者则给它设计了五种战术天性(mood),只有到了临场比赛的时候,Aiur才会从这五种天性中随机抽选一个,让对手捉摸不透。这五种战术天性包括: 

星际1 API的工作原理

光子炮rush - 开局后全力侦查,争取尽早探出敌人基地,然后在其矿区附近造光子炮,以早期压制敌人经济。但这也是个很冒险的战术,因为它的水晶塔和其他过渡建筑一旦被过早发现,是没有任何办法防御的;因此,它对隐蔽性和突然性的要求极高。 

速攻rush - 先以最快速度造几个狂热,去敌人主基地里寻歼容易消灭的单位,或四处巡游,打掉对方任何偷偷扩张的企图。后面再摆出狂热者+龙骑+仲裁者的经典组合(如果侦察到对方的空军单位或建筑,再加上海盗船予以压制)。该战术比较富有攻击性,一言不合就开干。 

星际2API的工作原理

寻机空投 - 在早期对敌人的主矿区实施快速狂热者空投,其要旨在于避开敌人的正面防御火力,扼制对手经济。这一招主要是用来对付Ximp等擅长“堵口子”的机器人,它们喜欢在开局阶段于基地入口处布设强大的防御力量,一旦这些防御措施被绕开,就会暴露出后方空虚的致命弱点。另外Aiur还有快速扩张和常规打法两种天性,这里就不展开了,顾名思义即可。 

实际上,Aiur在这五种积极进取的五种天性外,也存在隐藏的第六天性:被动防御,不过它不会在一开场就被AI选择,只在对阵虫族对手并发现对方有rush倾向时才会触发(比如,在侦查对方基地时发现其农民数量偏低时)。Aiur的自我学习能力可让它逐渐摸清,在分别面对每个不同的对手时,自己的哪些战术天性能取得较好的效果。 

为了进一步迷惑对手,不致于遭到反学习、反针对,它甚至不会在每一场比赛中都选择最有效的战术天性,相当的“腹黑”。人们都说阿尔法狗要是会故意输棋那才是世界末日,其实这对AI并不是什么难事。 

Aiur在开局时会随机选择一种战术打法,让对手摸不透自己的套路,是一位虚则实之,实则虚之的高手


AIIDE 2015

AIIDE 2015的参赛机器人数量达到22个,再攀历史新高。参赛的国家数量也创下历史之最,达到12个,完全够得上“小世界杯”的称号,其中甚至有了中国选手的身影,而且成绩骄人。参赛者的种族分布也是历年来最平均的(人9/神7/虫5)。别看虫族数量相对最少,却包揽了前三名。本来,虫族在首届的高光表现后一直处于疲软状态,这次颇有些王者归来的意思。 

在2015年的参赛国阵容中,我们看到了一面熟悉的旗帜

冠军tscmoo是由一位挪威独立制作人开发的Z,主打中后期战术,拥有上十套不同的建造顺序和策略,它依靠不断的学习修正能力,很快找到了对付每一个对手最有效的招数。亚军ZZZBot的作者也是一位独立制作人,它采用了星际争霸中最极限的速攻战法:4D出狗。这套战术看似简单,却收到了奇效。很多机器人的对策库中并没有应对这套打法的反制措施,结果都被打了一个措手不及,早早败下阵来。第三名Overkill正是来自我们伟大中国的虫族AI,其作者Sijia Xu是一位数据工程师(很遗憾,我实在搜不到他的中文名字)。它的套路很多,且主要依赖飞龙,这又让我们想起了首届冠军Overmind那风骚的飞龙操作。 

中国虫族Overkill采用9D开局咬死一片

如果要为本届比赛颁发一个特别贡献奖,那一定非AB莫属(举贤不避亲嘛),因为它这次大胆地采用了随机种族,这在整个星际AI争霸史上还是破天荒的头一回。对于极度依赖赛前决策的AI对战来说,随机种族无疑是个巨大的优势,你连对方的种族都不知道,又谈何针对性的部署呢。当然,要做好一个能同时掌握三族战术的AI,工作量也是成倍的增长。为此,我们几乎重写了每一行代码。 

它的另一项重大改进,是加入了一个用JSON编写的配置文件,其中包含许多战略和战术决策选项,随机AI必须等到每场比赛开始时确定了自己的种族后才能解析它。该文件还包含一个有关三族不同开局建造顺序的数据库。有了这个配置文件,我们程序人员就可以很方便地对所有这些战术选项和建造顺序进行修改,而无需重新编译整个机器人程序。 

选择tscmoo用起神族来同样犀利,这么多红球…啧啧…

为了让这个随机AI适应比赛节奏,我们为它找来了一些陪练。通过几天的测试,我们针对Skynet、LetaBot、Ximp和Aiur等几个主要对手量身制订了相克的战术打发和建造顺序。比如,在对战Ximp时,知道它是航母狂魔,那我就编织一张强大的防空火力网。在对阵Aiur时,如果随到了人族,就造大量的秃鹰战车,以克制对方的狂热rush。如果碰上之前未遇到过的对手,就默认采用三族的初级兵rush战术。实战证明,这套随机AI非常有效,在正赛中取得了第四名的好成绩。


AIIDE 2016

最近一次的AIIDE,让我们看到了可惜的变化,首先是不知从哪里冒出来一个Iron,直接坐上了冠军的宝座。其实这个AI并非无迹可寻,它的前身是上届比赛仅得第19名的Stone,其提升幅度之大,再次让人见识到了AI发展的无限可能。而去年的冠军Tscmoo因为没有更新版本,本次滑落到了第三,尤其是在与亚军ZZZKBot的直接对话中,只打了个平手(各胜45场),这不能不说是一个糟糕的战绩,因为在虫族对虫族的内战中,是容易化解4农民血池速攻战术的。 

据说今年的阿尔法狗能让去年的狗两到三子,可见人工智能的自我学习进化速度之快。同样在星际AI界,一年的时间间隔,就足以让排名榜发生翻天覆地的变化


从种族分布上来看,人族迎来了伟大的复兴(在另一项主要比赛CIG中,人族饱览了前三名),虫族则延续去年的强劲势头,只可惜我们中国的骄傲Overkill,今年只排在中游的位置,应该是没有更新的缘故。而神族的辉煌则一去不复返了。排名最高的Ximp(6)依然延续它的航母战术,只是越来越力不从心,曾经的万年老四Aiur这次跌到了第八的位置,其他诸如Skynet、Xelnaga等老P,更是跌出了前十。


写在最后的话:AI距离人类水平还有多远

作为每年的保留项目,我们都会安排一场人机大战作为压轴好戏。2012年,我们让当届冠军Skynet与来自德国的虫族好手Bakuryu进行了两场较量,结果想必不用多说,AI被人完爆。究其原因,AI的打法和套路还是太容易被人摸透。而且不懂变通,很容易被人玩弄于鼓掌之中。而人类的毒辣之处就在,一旦揪准AI的弱点,就会抓住不放,反复压榨对方。

比如在第一场比赛中,Bakuryu注意到自己的小狗只要一靠近Skynet的任何单位,Skynet就会派出自己的主力部队甚至部分农民去追逐它们。于是,他就让自己的小狗不停地在电脑基地附近兜圈子,跟Skynet玩猫捉老鼠的游戏,不断消耗对方,自己家里则一心攀科技出飞龙。


且看人类高手如何教AI做人(Bakuryu Vs Skynet)

对于这种人类才会有的险恶用心,就目前水平的机器人而言,还是察觉不到的。因为这需要对比赛往后的走势有一个提前的预判,至少要能推导出未来五到十分钟的局面。这可比象棋中提前预想五到十步复杂多了。如果AI要想在未来与人类的对战场面更好看些,它起码要达到能够察觉出人类在戏耍自己的水平。

AI的另一大弱项就是不善于变换战术。在开局阶段,AI和人类还看不出多大差别,一样都会rush、龟缩、扩张、攀科技,但人类会根据对敌方的侦察情况,迅速调整自己的打法。从这时起,双方的差距就开始凸显出来,我不否认有的AI也体现出了一定的战术转型能力,但是还远远达不到击败人类的程度。比如,AB具有很犀利的初期rush战术,可一旦没有成功地啃下对手,它就陷入了不善于向后期转型的尴尬境地,很多时候仍然一根筋地继续生产初级兵种压制对手。

要改变AI战术转型乏力的弱点,还需要程序员编写出更具有人类色彩的程序规则,比如“如果对方防御,就扩张”,“如果对方扩张,就进攻”。这不仅对程序员的编程技巧提出了更高的要求,也对他们对于高阶星际知识的理解提出了更高要求。

AI与人类并非总是处于对立面,换个思路,AI同样可以担当陪练的角色,帮助人类选手磨练技巧

基地建筑学是星际AI的另一个弱项。很多人类顶级选手,尤其是虫族选手极其依赖建筑的摆放。由于虫族的繁殖能力需要大量的孵化场(基地)为依撑,必然选择早期的扩张。但扩张又会造成初期机动兵力的缺乏,这就要求你把基地内的建筑码得像迷宫回廊一样,好尽量延缓敌人对你的农民进行屠杀。

在Bakuryu与Skynet的对局中,德国人就是这么做的,它凭借分基地中三个摆放位置巧妙的炮塔,成功地消灭了大量的进犯者。但AI程序既不善于摆放这样的建筑,也不善于攻击这样的建筑,因为这涉及到复杂的战斗模拟和路径寻址。从中你也不难理解AI界为何一直存在“P盛Z衰”的现象,毕竟狂热者和龙骑本身就是很好的初期机动防御单位,对建筑的摆放也就不那么讲究。

Bakuryu用三个位置巧妙的地刺塔就挡住了Skynet大波的狂热者

时隔三年以后,AI被人类吊打的局面仍然没有改观。这一次,主办方邀请到俄国的神族高手Djem5与当届前三名进行了较量。Djem5从2003年就开始打星际,曾赢得多项大赛冠军,被誉为韩国以外最好的神族选手。在Djem5面前,这些AI好手的表现简直就像弱智一样。

不过这也不完全是AI的问题,因为这种形式的人机对决对机器一方是不公平。现有的这些AI,都是专为上千场的循环赛制而设计的,它们出于完善自身的需要,可能会在某些对局中尝试(检验)一些很冒险的战术,在人类看来确实很傻,却是其学习进化的重要一环。只是,这样的尝试不应该出现三局两胜的比赛中。如果程序员能为三到五局的短赛制专门设计一套AI,让它们执行更加安全稳妥的战术,或许局面不会这样难看。

蒙特卡洛树搜索+强化学习是阿尔法狗的两大法宝,这同样也是星际AI赖以生存的重要武器,虽然它们暂时还难以与人类高手抗衡,但阿尔法狗的成功,证明了它们走的路是对的

其实,大家也不必对星际AI的前景太过悲观。像在ICCup这样的比赛中,Tscmoo和krasi0等顶级AI已经能够打败D级、甚至某些C级选手(相当于业余水平中的佼佼者)。只是要赢下一个X局X胜的系列赛还是有些困难。你在研究对手,人类也在研究你。即便是业余选手,也能够很容易摸清AI的套路,并且不会放过AI犯下的任何微小错误。

好在人类除了打游戏还要吃饭睡觉,但AI不用,即使连续打上千百盘也不会打吐,就训练量而言,这是电脑相较于人脑最大的优势。得益于如此高强度的练习,AI界的整体水平才有了飞速提升,2014年的一二三名到2015年就只能排在7/6/10的位置。虽然在人类高手面前仍然像小学生,但AI还有一个长处,爱学习呀。哪怕是死记硬背,也是学习。更何况,阿尔法狗已经指明了这是一个正确的方向。

相信用不了两年,AI就能很轻松地击败一般业余选手。至于打败像Flash这样的大拿,按照以前的估计,也许还得五到十年,但随着DeepMind的强势介入,这一天我们或许不会等得太久(谁想等了?)。


展开全文

评论

发布
取消
返回顶部
App内打开