如何科学客观地给一款游戏打分?

石叶 文化 2019-11-19
  • 28

心诚则灵。

 1 

最近,游戏评分又在玩家之间引发了不少的争议。围绕着著名游戏媒体IGN对《死亡搁浅》打出6.8分的同时对《宝可梦 剑/盾》给出了9分的高分,不少人表示了对媒体评分的不认同:IGN的评分就是图个乐!

其实游戏评分的争议不只发生在IGN身上,很多媒体都曾因游戏评分或高或低而招致非议。

问题在于矛盾性:游戏评分给人的感觉应该相对客观公正,但实际上它却充满主观要素——游戏媒体的评测工作通常由一个人独立完成,而且为了保证独立性而不允许他人干预。

但即使IGN、GameSpot这样的传统大媒体,评分也并没有统一的标准,虽然这些编辑会尽量用专业客观的角度来评判一款游戏,但从根本上来说,他们仍是以自己的标准来打分的。所以同一款游戏的媒体评分和玩家评分出现较大出入时有发生。

创造一个科学客观的评分方法有那么难吗?

虽然本人的数学很烂,但我有理由相信自己能够一劳永逸的解决这个问题。


 2 

游戏是多种多样的,有些游戏是高成本、大制作,著名团队制作、大牌明星加盟。有些游戏可能只是某个大学生的毕业设计,几乎没有人听说过。我们对大游戏比较挑剔,对小游戏比较容忍,游戏在成本、质量、知名度上的巨大差异,决定了对于它们的评分方式也应该分而治之。

因此建立模型的第一步,我们按照马克思列宁主义阶级论,划分游戏的阶层。

生产资料占有关系将是我们进行阶级划分的唯一正确的标准。

对于游戏来说,独立游戏开发者对游戏拥有绝对的控制。随着游戏规模变得越来越大,制作者对于作品的掌控也会变得越来越少,而对于一些游戏工作室来说,生产资料完全掌握在大发行商手中。

因此根据制作者对于游戏的控制权,可以将游戏分为几个阶层。

不同阶层的游戏开发目标、受众不同,评分标准也不同。

把上层资产游戏和中层资产游戏为第一类游戏,因为这些游戏往往以获得商业成功为目标,成本更高,质量更好,也更会迎合大众的喜好,因此大众的评分对于这些游戏有较好的一致性。不要误以为是因为它们的数据比较容易查。

剩下的两类游戏为第二类游戏。这些游戏往往是独立开发的,或者销量不高,或无人知晓,所以没有很多的统计数据可以参考。

它们的评分标准也更加复杂。制作者的初衷未必是追求商业上的成功或者迎合大多数玩家的口味,因此这些游戏的评分往往会出现两极分化,一个玩家觉得无趣的游戏可能会在另一个玩家眼中是难得的精品。再加上它们的销量整体较小,玩家样本也少(换句话说就是没法算),因此它们的评分需要分开计算。

下一步,我们就可以开始计算游戏的评分了。

第一类游戏:

要对第一类游戏评分,首先我们要确定影响游戏体验的因素。

游戏体验是很难简单量化的,此前有不少人尝试过用数字去衡量一款游戏的体验,为此他们开发了一套完整的调查问卷系统,称为游戏投入度问卷(GEQ),通过让玩家回答一系列具体问题来获得一个最终的得分,比如“我觉得游戏很容易上手”“我觉得游戏很好操控”。

不同的研究中选择的影响因素也不同,可能包括注意力、代入感、成就感、美术、个人兴趣等等。还有人通过探索性因素分析法和验证性因素分析法,来确定影响游戏体验的因子。

但不论是哪种方式,都有需要通过调查多个层面的几十个小问题来实现科学的统计。

但对于每一款游戏都进行大规模的调查是不现实的,我们需要的是能够普遍用于多数游戏的通用公式,最好是利用现有数据就可以完成的。

在日常衡量游戏的指标中,我们首先想到的自然是媒体评分。但就像开头说的,媒体评分的波动性很大。媒体评分的形式更接近统计学中的立意抽样或专家抽样,属于非概率抽样,因此结果只能用做参考,而并不能用来推算本体。即使我们使用平均得分,因为总体的样本量小,也会很不准确。

因此我们选择metacritic上的用户平均分S0作为评分的基准,虽然用户评分同样具有主观性,但因为这些数据样本量大,相比之下比媒体评分代表性强。

接下来,要考虑的是一款游戏的关注度对其评分的影响。游戏的关注度高并不等于评分高,有时反而会成为游戏变烂的重要诱因,对此《辐射76》有很多话要说。

因此要科学的计算游戏评分,我们要考量的是游戏关注度和真实表现之间的关系。

抛开小众游戏不谈,对于第一类游戏来说,好游戏最真实的表现是什么?销量!购买是实实在在的肯定,我们常看到某某游戏的销量突破百万,就是证明这款游戏很不错。

但A游戏比B游戏的销量高,不代表A游戏就比B游戏好,总会有一边骂一边玩的人,所以一款游戏的真正好坏应该取决于它的表现是否达到了预期。

用游戏的销量N除以关注度,就可以得到游戏的真实购买率α,α越高,就说明这款游戏越符合大众的期望,如果α大于1则说明游戏的表现超过了预期,这样的游戏也自然就是更“好”。

那如何体现游戏的关注度呢?关注度用新词说就是流量,这里用游戏在搜索引擎中的搜索结果数量T来代表。

于是有了下面的公式:

接着我们要找到能够代表游戏“好玩程度”的参数。

好玩并不好界定。就拿最近的《死亡搁浅》来说,不少人觉得送货很无聊,但也有很多人觉得修路实在太上瘾了。那么,如何来衡量一个游戏是否好玩呢?

游戏时间可能是一个好的标准。如果一个游戏很无聊,我还坚持一直玩,那么……那么只能说明我就喜欢玩无聊的游戏,它对我来说就是一个好游戏。

但这里不能单纯使用游戏时间作为参数,如果游戏太无聊直接让你睡过去了,那游戏时间也会大幅增长。

因此这里我们通过howlongtobeat.com这个网站,找到每款游戏的平均通关时间。再用每款游戏的平均游玩时间t1除以它的平均通关时间t2,就得到一款游戏的平均停留度。

平均停留度越大,说明玩家越愿意留住游戏中。如果停留度大于1,说明游戏重复游玩的价值很高。

这样一来我们就有了决定游戏好坏的三个因素,它们的乘积结果(别问我为什么是相乘)就是游戏的科学加权评分。

最后让我们用几个熟悉的游戏做个测试,结果如下:

我不知道为什么只狼的得分如此低,科学就是如此神奇,大概是因为太难导致流量太多、销量太少吧。

这种评分方式存在一些“小问题”:对于刚发售的游戏,因为销量和评分还不稳定,无法使用(发售时间不同的游戏之间相比也有失公平)。再有就是不少游戏的销量无法查到,有些游戏不存在通关,还有除Steam平台之外的数据都很难查到。

没关系,我们对“第二类游戏”的评分方式会变得更加客观的。


第二类游戏:

下一步,我们要对无产阶级游戏和小资产游戏进行评分。

这种作品往往没有大规模的受众,或者没有详尽的数据进行参考。因此我们需要利用自己的评分,并尽可能的让评分真实有效。

不是因为我编不下去了,我们知道个人对一款游戏的打分往往受到情绪的影响,对喜欢的游戏吹爆,而对于不喜欢的游戏则一黑到底。所以个人对游戏的评分通常呈现非10即0的情况。

如果玩家对一款游戏相当兴奋,那么他对游戏的评分x,会随着兴奋程度n的变大而发生x=10n的指数型增长。

由此我们可以得到兴奋指数n。

如果取评分的满分为10分,那么减去兴奋度之外的部分为真实评分,再用真实评分除以兴奋指数,可以得到真实评分率β。

于是最终的游戏真实评分y可如下计算。

经过我对公式进行化简,结果如下:

可以看出,对第二类游戏的真实评分就是你对于游戏的评分。

所以至此我们终于一个科学结论:游戏评分还得信自己。

以上就是我的游戏评分方法,虽然不一定正确,但至少科学,即使不科学,也至少客观,哪怕不客观,也足以让你在与其他人的辩论中立于不败之地。

因为即使对方想驳斥你,也起码得写出一个同样科(wu)学(liao)的论证来。而在这之前,你已经证明了自己的评分比IGN更客观,这就够了。


展开全文

22 条评论

发布
取消
更多评论
返回顶部
App内打开