爱情统计学

 

11月1日是传说中的“中光棍节”,奉上一期爱情统计学。不要告诉别人,你谈恋爱的技能是统计老师教的哟~...



Dr.喵原创作品

一个许多人都在约会的夜晚,咖啡馆里随处可见成双结对的男女在低声谈心,Dr.喵若无其事地坐在众人围坐的方桌前,给一位正在备考的好友补习最基础的统计学。不一会儿,Dr.喵一抬头,发现周围谈心的男女都默默地消失了……

好友说:“都是你的错,把旁人都吓跑了。人家在谈恋爱,你却在讲统计。”

Dr.喵笑道:“如果我的学生能拿出谈恋爱的态度学习统计学,他们的考试成绩一定会突飞猛进。”

好友也笑了,“统计知识可不像谈恋爱那样浪漫。”

Dr.喵说:“那要看你的想象力了……”

曾经有一本书,名为《爱上统计学》。我曾翻阅它若干遍,仍旧没有爱上统计学。正如大多数爱情需要培养,对统计学也难以一见钟情。此书第一章的标题就赫然印着“统计学还是虐待学?由你决定”。无论你相信不相信,恋爱在某种程度上就是一次又一次心灵受虐的过程,我们揣测着、迷惑着、欲言又止、时而兴奋、时而低落,最后,要么屈从,要么逃离。

好友说,统计学比谈恋爱枯燥得多,至少谈恋爱不需要学习,而统计知识却是要苦读。其实不然,统计知识需要学而时习不假,但如何去爱一个人也是需要学习的。曾看到过许多口口声声的真爱却以伤害告终,我并不怀疑爱人者情之切、爱之浓,但如何以恰如其分的方式去表达自己的爱,也许对被爱的那个人而言更重要。我曾听闻一些圈内同行对统计学之重视有如阶级斗争——对着学生“年年讲、月月讲”,但是学统计,也是要注重方式,更要就着学生的研究兴趣,勉强不来。好比那些缺乏感情根基的关系,纵使单方面追寻,单方面争取、单方面精心维系,所有的追求也不过是强求……

统计学里有些东西与感情之事相仿,第一次听到类似的说法,是在一位教授的课堂上。他用两口子吵架来比喻统计控制:如果连第三者都不控制,那怎么能弄得明白这两口子的关系?其实,类似的思路在统计术语中还可以发现很多:

相关与解释力

相关系数反映的是两个变量共同变化的程度。相关系数的平方表示解释力,即两个变量能够互相解释的程度。相关系数从0到1,越靠近0,说明这两个变量越不相关,越靠近1,说明这两个变量越相关。如果相关系数等于1,则说明这两个变量完全相关,但正如世界上没有两片同样的叶子,很少有相关系数等于1的情况(除非这两个变量根本就是同一个东西),所以一般来说,0.8左右就已经是能在社会科学中看到的很高的相关了。

尽管如此,这个相关系数平方过后却显不出有多高:相关系数为0.5, 仿佛有个中度相关了,但平方后的解释力也就是25%, 方才提到的相关系数0.8,平方过后,表达的解释力不过64%。从相关系数的角度来看,两个变量共同变化,很是亲近,而从解释力的角度来看,一个变量也未必能另一个变量太多的内容。这就像两个人在一起,虽然能够共同进退,亦步亦趋,却在许多地方未必能够相互理解。自以为行动一致,自以为携手一生,但其实共同的东西真的很少,很多时候都是同床异梦,谁也不能完全吃透谁。

原假设

原假设又叫虚无假设或零假设,是与研究假设相反的假设。这是一个用于统计推断的概念。统计推断是从样本特征推断到总体特征的过程。这样的好处是一叶知秋:我们只需要从总体里抽取一个样本,分析这个样本,就知道总体的情况。但是样本毕竟是样本,总体毕竟是总体,由于抽样或非抽样误差的存在,样本的特征总会与总体的特征存在一些差异。

那么我们怎样去验证样本所发现的特征就是总体的特征呢?我们通常就要借助原假设,即先假设样本的特征不是总体的特征,然后推翻这个假设,越有可能推翻这个假设,就越有把握说明样本的特征就是总体的特征。这就好比我们想知晓一个人是否爱着我们,想从他/她一次次微不足道的行为来判断他/她能否履行一生的承诺,我们就不得不用怀疑地心态试问:如果他/她不爱我,他/她还会这般待我吗?——不爱,只是一个原假设,我们打心底里想推翻它,来肯定我们的爱情。

显著性水平

显著性水平又称风险水平,要拒绝一个原假设需要事先定一个犯错误的水平。这个显著性水平很有意思,这个值不能定得太大,也不能定得太小。这个值要是定大了,原本真实的无关会被误认为是有关,而定得太小了,原本真实的有关会被坚持误认为无关。这就好像我们对亲密关系的定位,怎样才能算两个人走到了一起?这一定先要有个标准:有人说约会,有的人说表白,有的人说牵手,有人说一吻定情,有的人说见父母,还有的人说……

这标准越高,越难以推翻原假设,而标准越低,越容易造成自作多情的误会。如果觉得一两次约会就能说明什么,那这样的爱情就和友情差不多在一个水平上了,如果说只有婚姻才能说明两个人走到了一起,那我们情感上一次又一次的遇见,不过是萍水相逢。如果心里事先没有一个关于爱情的“显著性水平”,我们难免困惑:那些曾经经历的人,到底是路过的爱人,还是爱过的路人?

I类错误 VS. II类错误

I类错误是指虚无假设是对的,却被拒绝了所犯的错误;II类错误指的是虚无假设是错的,却被接受了所犯的错误。读上去似乎有点拗口,简单来说,II类错误是该拒绝的没拒绝,I类错误是不该拒绝的拒绝了。再进一步说,II类错误是过分保守而不敢接受研究假设是正确的事实(“假阴性”);而I类错误是过分天真地推翻了无关假设,并急不可待地接受了研究假设(“假阳性”)。

这两种误差有点此消彼涨的关系,通常的规矩是宁可犯点II类错误,也不要犯I类错误。宁可没赶上那班车,也不要错搭了一班车。如果用爱情统计学的话来说,就是:错过了一个合适你的人,虽然可惜,但总还能寻找或等待下一个合适你的人,毕竟这个世界上有成千上万的女人可以成为一个男人的好妻子,也有成千上万的男人可以成为一个女人的好丈夫。但千万别摊上一个错误的人,那也许就会成为人生的不幸。还是谨慎些好。

双尾渐近

我们说正态曲线是双尾渐近的,那么什么是“双尾渐近”呢?这个词的意思是曲线的双尾越来越逼近横轴,但是永远不会与横轴相交。有的感情也是这样的吧,无限亲近,却总能因为这样或那样的原因,永远不可能走到一起。

信度与效度

信度是指反复测量都能保持测量结果的稳定性,效度是你测量到了你要测量的东西。信度就好比主妇们以各种旁敲侧击拷问晚归的丈夫有没有撒谎——“干什么去?”“跟谁一起?”“去哪了?”“谁送你回来的?”老公的信度就是这样被测出来的,若是给出答案前后不一致,那么多半是有所隐瞒。效度就好比这些问题多大程度上能测出老公的忠诚。但是,他有所隐瞒不一定是背叛了你;他对你撒谎,也不一定是不忠诚,或许是有难言之隐。

所以,这类效度不高的问题以后还是少问,问了也别把答案太放在心上。有信度不一定有效度,但有效度一定有信度。这好比我们在感情上是否选择了合适自己的人,如果不是合适自己的,无论你琢磨他(她)多少次,在他(她)身上花费了多少功夫,不是自己的最终都不是自己的——这就是有信度而无效度。而一旦选择了合适我们的人,那这个人,这段感情最终都会经得住考验,所以说,有效度便一定有信度。

内生性偏误

社会生活中的因果关系很难确证,因为干扰的因素太多,其中之一就是内生性偏误,内生性偏误表现的是人在行动决策之前的某种倾向性或者预期,这种倾向性或预期影响了干预的效果。就好比你越认定一件事情没价值(比如学习统计学),你做起这件事情来难免越不用心,那么就算这件事对绝大多数人都有好处,你也仍不能从中受益;反之亦然。

类似地,在爱情的问题上也存在内生性偏误,以相亲为例,相亲成功这一结果并不一定以真实的相爱为原因,因为在相亲时,人们总会自觉不自觉地在想:“这个人是我的相亲对象,我应该对她(他)好,我应该喜欢她(他)”,这种倾向性直接影响了人们在相亲中的行为,比如说使人们在关系上更主动、更殷勤、更倾向于给对方更好的评价等等,最后两个人在一起,全然不是真的相知相爱,而是在认为对方没有什么硬伤的基础上,觉得应该相爱,觉得应该按照相爱的要求进入各自角色扮演的结果。

换个角度想,如果没通过相亲,只是在自然的人际交往过程中认识了这个对象,你会有多大的可能爱上她(他)?这也许就说不准了。所以,相亲不仅仅是拓宽了交友渠道,而多少暗含着结婚的预期,由此这般的相爱,多少有一点内生性偏误。

……

好友说:“你讲了这么多道理,但是我仍觉得你说的统计规律不准,调查婚姻的数据都显示,门当户对的关系最容易稳定。我这样的应该配一个高富帅才成,可是我偏偏心甘情愿地跟一个平凡人结婚。”

Dr.喵笑道:“所有的统计规律都只是描述平均水平,但我们每一个人都是独特的,也许我们所有人平均起来符合统计规律,但是我们每一个人的选择与结局却是各有各样。忘了这些规律,如果你们相爱了,就算我计算出来你们的相配程度不足1%,你们也会让它变成100%;如果你们不相爱,就算我算出来的相配指数高达100%,你们也会让它等于0。”

编辑:田志鹏

北京大学社会学系


    关注 统计课是纸老虎


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册