夏武的分享

TrueSkill评分系统

夏武 2012年01月16日星期一 11:25 | 0条评论

rueSkill系统是基于贝叶斯推断的评分系统，由微软研究院开发以代替传统Elo评分，并成功应用于Xbox Live自动匹配系统。TrueSkill评分系统是Glicko评分系统的衍伸，主要用于多人游戏中^[1]^[2]。TrueSkill评分系统考虑到了你水平的不确定性，综合考虑了玩家的胜率和可能的水平涨落。当玩家进行了更多的游戏后，即使你的胜率不变，系统也会因为对你的水平更加了解而改变对你的评分。

Rank值的计算公式

TrueSkill假设玩家的水平可以用一个正态分布来表示，而正态分布可以用两个参数：平均值和方差来完全描述。设Rank值为R，代表玩家水平的正态分布的两个参数平均值和方差分别为 $μ$ 和 $σ$ ，则系统对玩家的评分即Rank值为

$R = \mu - k \times \sigma$

k值越大则系统的评分越保守。

输赢对Rank值的影响

下面这张表格来自微软研究院^[3]，此表格给出了8个新手在参与一个8人游戏后 $μ$ 和 $σ$ 的变化。

Name	Outcome	Pre-Game μ	Pre-Game σ	Post-Game μ	Post-Game σ
Alice	1st	25	8.3	36.771	5.749
Bob	2nd	25	8.3	32.242	5.133
Chris	3rd	25	8.3	29.074	4.943
Darren	4th	25	8.3	26.322	4.874
Eve	5th	25	8.3	23.678	4.874
Fabien	6th	25	8.3	20.926	4.943
George	7th	25	8.3	17.758	5.133
Hillary	8th	25	8.3	13.229	5.749

这里有个很有意思的现象：注意第四名Darren和第五名Eve，他们的 $σ$ 是最小的，换句话说系统认为他们能力的可能起伏是最小的。这是因为通过这场游戏我们对他们了解得最多：他们赢了3/4个人，也输给了4/3个人。而对于第一名Alice，我们只知道她赢了7个人。

如果想知道更详细的定量分析可以先考虑最简单的两人游戏情况

$\mu_{winner}\longleftarrow\mu_{winner}+\dfrac{\sigma^{2}_{winner}}{c}*v(\dfrac{\mu_{winner}-\mu_{loser}}{c},\dfrac{\varepsilon}{c})$

$\mu_{loser}\longleftarrow\mu_{loser}-\dfrac{\sigma^{2}_{loser}}{c}*v(\dfrac{\mu_{winner}-\mu_{loser}}{c},\dfrac{\varepsilon}{c})$

$\sigma^{2}_{winner}\longleftarrow\sigma^{2}_{winner}*[1-\dfrac{\sigma^{2}_{winner}}{c}*w(\dfrac{\mu_{winner}-\mu_{loser}}{c},\dfrac{\varepsilon}{c})$