一个神烦的小游戏:看散点,猜相关~(实验狗玩过都哭了

 


(Amelia/编译)在开始玩“猜相关”之前,我从没想过自己会把复活节假期的一小时花在沉迷一个8比特游戏上,更不用说它还是个关于许多科学家的日常工作的游戏了。同样,我也从未想过自己会沦陷于一张张黑点组成的图形中,力图准确地估计出这些黑点背后隐藏的规律,从而获得分数、荣登游戏排行榜。而且我也绝对没有指望过这件事会很好玩。

“猜相关”是奥马尔•瓦基(Omar Wagih)的智力结晶,他是欧洲生物信息研究所的一位研究生,并且是我的(曾经是闲暇)时间的邪恶吞噬者。这个游戏文字描述起来极端无聊,然而一旦开玩就根本停不下来。不信试试看。

传送门:http://guessthecorrelation.com (请长按复制到浏览器地址栏。如果手机显示比例不对,建议换到电脑上,否则会影响你的准确性)

游戏中,玩家会看到许多散点图——一种用于展示两事物间关系的常见图表,它反应的可能是气温和冰淇淋销量的关系,或者是体重和心脏病患病风险的关系,也可能是你花在这个邪恶游戏上的时间和你朋友数量的关系……你需要做的就是盯着这些散点图看,并估计出一个被称作R值的值,R体现了两事物间的相关性。在这个游戏中,R的取值范围是0(完全没有相关性)到1(完美的正相关)。


先来复习一下不同R(相关系数)对应的散点图。图片来源:Omar Wagih

R(相关系数)是怎样的一个东西呢?有请果壳网友@Lyroat 来解释一下(看到这里就哭了的实验狗可以跳过本段)——

这不是一个随便的游戏,你想玩它,要先了解什么是相关系数。这里提到的相关系数,全名为“皮尔逊相关系数”。

皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且Y随着X的增加而增加。系数的值为-1意味着所有的数据点都落在直线上,且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

计算公式:



……好我们忽略上面这步。



相关系数的一些典型数值图片。来自wikipedia

从图上我们可以看到,当相关图上的点,越密集、越靠近于一条线上的时候,它们的相关性就越强。根据相关系数来规定相关性的强弱。

好的,让我们回到游戏上——

通过观察散点图来判断事物之间的相关性是科学家们一直在做的事。在游戏过程中,我发现这件事出乎意料地困难。强相关(比如当R大于0.8时)十分明显,因为点都排成了一条干净的斜线。类似地,弱相关(当R小于0.2时)的图形看起来就像盲人射手练习射击后的靶子。然而,在这两者之间还存在着巨大的中间地带,我的判断力通常在这里戏剧般地下线——这也正是瓦基设计这个游戏的初衷。

去年十二月,瓦基参加了一场研讨会,会上,一位发言人展示了一张散点图,并断言这其中存在相关性。“它看起来,你知道,并不是怎么相关,”瓦基说。“我就想,我应该把他的话当真么?之后,他给我看了R值,R值显示这其中确实存在相关性,而我低估了散点图中的信息。我意识到会这样做的人可能不只我一个。”

他找到了几个可以随机生成散点图猜R值的网站,但“这些网站都很无聊,”他说,“完全没有动力驱使你继续下去。就这样,我产生了做个游戏的想法。”

游戏机制非常简单,由极简主义的设计和怀旧音乐实现。猜一连串散点图的R值,差太多会丢一条命,猜很准可以奖励一条命。比较好的估计可以为你赢得金币,这会计入你的最终得分。你甚至可以和朋友比赛。这就是这个游戏的全部。


为了展示游戏界面开了游戏,一上手就丢命_(:з」∠)_图片来源:guessthecorrelation.com

瓦基于去年12月上线了这个游戏,并将每个玩家的估计数据收集成了一个数据库。他打算分析这些数据,来看看蒙蔽人们的散点图中是否存在着某些视觉因素,让人们高估或者低估相关性。“这种事以前就有人做过,但现在的重点在于我有庞大的数据,”他说。其他的研究一般仅涉及几十个志愿者和几千个估计值。但到今年三月中旬,瓦基已拥有17万名注册玩家和一个有着超过400万估计值的数据库。

“我想设计一个更复杂的游戏,更让人上瘾的,”瓦基说(上帝啊饶了我吧)。他打算增加难度等级,改变散点的数量或大小(求放过!)。“我想做出一个你无聊时会在手机上玩的主流游戏,这样你就不会意识到自己是在猜相关性,并且在给这个研究课题做出贡献。”(快住手!!)

“我自己玩这个游戏的时间已经比我应该投入得多了,”他补充道。“我会坐在朋友身边,看他们输入答案,然后说‘不对,不对,是0.72’。他们不相信我,但我的答案往往更加接近。”



玩家给出的R值是0.56,正确值是0.53:误差小于0.05,获得1条命+5个金币。图片来自Lyroat

除了看别人猜相关之外,他的经历证明这个游戏作为训练工具,有着提高研究者判断相关性能力的潜力。“这是首要的目的,”瓦基说。“我几乎每天都会接触到这样的散点图,可能是我自己的,也可能是我读到的论文里的。如果它能训练你下意识辨认出散点图中对相关性有贡献的结构或特征,这会非常有用。”

可视化能帮助我们理解大量数据,但它们仍然有着自身的缺陷,可能会让人们误入歧途。信息是美丽的,但美丽本身也有欺骗性。“作为一个研究者,你要阅读大量文献,在很多情况下,你只会看图,而不会看文字。”他说。“你看见了一张图——甚至可能是你自己的图——然后据此做出了某种判断。与一般人所想的相反,人们并不怎么擅长这件事。而我已经有了数据来证明这一点。”

(编辑:Stellasun)
一个AI
再给一遍传送门,长按复制到浏览器地址栏即可:
http://guessthecorrelation.com 
祝你们玩得开心……欢迎把最高分留言给我(小于100的就不要说话了)。


PS.阅读原文是@Lyroat的攻略,欢迎点击左下角阅读~~
果壳网
ID:Guokr42
中二病究竟有没有得治?
密集恐惧症真的“只是矫情”?
不相干的东西严丝合缝拼在一起就觉得爽,是强迫症吗?
你有病?没事~ 果壳有药呀!
本文来自果壳网,谢绝转载

如有需要请联系sns@guokr.com


    关注 果壳网


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册