分享

SRFC“能力指数”车手评分系统升级为2.0

 弓道自然_改名 2020-02-03

概述:

我们的能力指数RRI系统自从2017年12月运行至今半年有余,期间逐步的发现了一些问题,针对这些问题,本文作者进行了潜心研究后对本系统提出了新的计算规则。
Elo评分系统
简单回顾:

Elo评分系统是由一个叫Arpad Elo的人提出的一种实力评分系统,最早用于国际象棋的排名,现在也广泛地被运用到各种游戏中。

单拿宝可梦来说,无论是PS,PO还是实机排位,其分数排名系统都是Elo系统。

相信大多数经常打以上三个游戏玩家,都至少有这么个感性认识:

在这个系统里,和分数比自己高的人比赛,赢了自己能加更多的分,输了则会扣相对较少的分;反之亦然。

在Elo系统中,一个确定的分数差对应着一个确定的胜率。比如1950对1850的胜率是64%,1200对1100的胜率也是64%。反过来看,如果A对B的胜率大约是64%,那么他们的实力评分差约100分,如果A对B的胜率约76%,那么他门的实力评分大约差200分。

理论上,Elo系统可以用来关公战秦琼,两个不同时期的玩家,可以通过直接比较Elo分来比较其水平强弱。另一方面,K的取值只影像分数调整的快慢,并不影响分差和胜率的对应关系。

Elo系统
的主要问题:

Elo系统的一大特点就是并非根据时间加减积分,这杜绝了一轮游也可以涨分的怪相,但却暴露了另外的缺陷——并不考虑长时间远离赛场后扑朔迷离的竞技状态,其问题在于无法确定选手评分的可信度。

假设两名评分均为1700的选手A、B在进行一场对战后A获得胜利,在Elo系统下(K=32时),A选手评分将增长16,对应地B选手评分将下降16。但是假如A选手是已经很久没玩,但B选手每周都会玩,那么在上述情况下A选手的1700评分并不能十分可信地用于评定其实力,而B选手的1700评分则更为可信。思考得出以下结论:

(1)A选手的评分增长值应该大于16分,因为他的1700评分作为初始值并不可信,同时击败一个稳定在1700评分的选手表明他的实力很可能高于1700;

(2)B选手的评分减少值应该小于16分,因为他的实力已经被很精准地定位在1700附近,而他输给了一个评分并不可信的对手,那么B选手的实力评定其实从该场对战中并不能有多少“学习”。

Glicko
评分系统

Glicko系统正是针对上述情况进行改进。第二版RRI'能力指数'评分系统是基于Glicko评分系统打造的。Glicko评分系统是Mark Glickman发明的,本质上是对Elo系统的一种改进。

Glicko系统在给玩家一个评分时,同时还需要给出一个标准差(既正态分布中的均值和标准差,也可以理解为范围或者可信度),例如玩家A的评分是 (1600, 50),玩家B的评分是(1650, 100)。这样,我们在评估一个刚刚进入系统的玩家时,就可以给出一个很大的标准差来避免其实际实力与暂时的分数不符的问题。而通过玩家不断地进行对战,调整其分数的同时,一定程度地减小其标准差,也既是慢慢地精确定位玩家的实际实力。Glicko系统中,需要设定一个实力均值以及一个最大标准差值(我们设定的均值为1500,最大标准差为350),同时,一个没有任何对局的新玩家的评分就是(1500, 350)

Glicko
评分系统基本计算步骤:

步骤1 为所有选手设定一个初始评分和RD值

(a) 如果选手未分级,设定评分 = 1500,RD值 = 350;

(b) 否则,用选手最新的评分,同时根据RDold用以下公式计算新的RD值:

t是自最近对战后,现在已经是第几个周期(例如选手上次对战就是在刚过去的一个评分周期,则t=1);c是用于衡量随时间增长不确定度的常量(后续会给出如何选择c值的方法)。上述公式可以保证在评分周期开始,未顶级选手的RD值不会超过350。

步骤2 分别为每一个选手执行下述公式计算:

假定在评分周期初始,选手的评分为r,评分偏差为RD。设定m个对手在评分周期初始的评分分别为r1,r2,r3,……rm,其评分偏差分别为RD1,RD2,RD3,……RDm,同时设s1,s2,s3,……sm为其对战各个选手的结果(在SRFC对战结果只有2种:胜、负,分别对应的s值为1、0)。注意:与同一对手对战多局,其使用的评分和RD值与对战多个对手相同。

使用r’、RD’表示在评分周期过后选手新的评分和RD值,则相关的更新公式如下:

其中

上述公式在评分周期的末尾对每个选手进行一次计算。

实例

为了对上述步骤2进行计算,假定一个评分为1500的选手对战3个选手评分分别为:1400,1550和1700,战斗结果分别为胜、负、负,同事该选手RD值为200,而对手的RD值分别为30,100和300。我们可以得出:

得出:

d = 231.67

从而得出:

r’ = 1464,RD’ = 151.4

【演算过程略。。。】

关于C值

评分算法步骤1中的c值可以由数据分析决定,当然就需要非常复杂的计算过程。另外一个方法是决定过多少个评分周期后,一个没再进行过评分对战的正常选手的评分变得如一个未评分选手一样不可信。为了示范计算该种方法,假设一个正常选手的RD值为50,评分周期持续2个月,并且假定5年(60个月)过后该选手评分如未评分选手一样不可信,此时时间已经过去了t = 30个评分周期(30*2个月)。我们可以用以下公式解出c:

在该例中,c = 63.2。

一个实际应用过程中会遇到的问题是,当一个选手过于频繁地进行匹配对战时,他的评分变化不再明显,因为此时他的RD值非常小。当选手的实力确实有了提高时,这种情况会阻止选手的评分发生实质性的变化。因此设定一个从不会低于某值(例如30)的RD值,这样选手的评分在一个相对短的时间内也可以明显地发生变化。

SRFC能力指数(RRI)
2.0版计算规则简介:

我们以10场对战(假设1场比赛有15人参加,那么每位参加的车手都经历了14场对战)为一个计算周期,C值设定为若缺席超过300个计算周期,这RD值变回初始值(如同新手一样不可信)。

设定车手评分变动为2倍的RDnew以内。

退赛的情况:当车手未完成3圈时不参与计算。之后退赛的话,和所有退赛车手之间都算平局,和所有完赛车手之间都算失败,以此规则进行计算。

目前2.0版RRI评分系统已经上线并已开始测试,地址为:http://www./app/RRI_SEARCH2.php?name='车手中心ID'。

能力指数RRI查看页面
简介:

条形图表示车手每场比赛后的能力指数(即r),折线图表示车手每场比赛之后计算得出的稳定系数(即RD)

一位车手的RRI应表达为r±RD。

如上图,GTR1994的以截图时最新的RRI为1978±89.83,那么他的能力值为上限2067.83,下限1888.17的区间内某一个值。

稳定系数的中位数:离最低稳定系数值越接近,则车手评级表现越稳定,反之越不稳定。

参考文献:https://en./wiki/Glicko_rating_system

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多