相关、回归和因果关系:特朗普与苍老师的虐恋
医学上,许多现象之间都有着相互联系,相关、回归和因果关系就是医学统计学里的三钟关系。
一个大胆的推测,特朗普和苍老师是有相关性的。想反驳这句话,确实很难。相关、回归和因果这三种关系,时常困扰着我们。在现实生活中,非统计学专业的人,时常被各种标题党套路。例如柳叶刀说多吃米饭会死得早、20-50岁男人射精越频繁则前列腺癌风险越低……我们看到的各种“震惊、惊讶、柳叶刀、新英格兰”等拉风标题的文章,都在试图让我们非统计学专业人士蒙圈。当然,笔者也很不厚道的套路了一把。
为了避免套路,我们需要简单了解一下相关、回归和因果这三种关系的区别和联系。
一、相关性有哪些类型?
相关是事物之间关系的一种表现,是指事物间相随共变或相随共现的程度。我们从相关性了解程度的四个层次,来进一步理解相关性的定义。
(1)第一层次:只知道两个变量有相关关系;
(2)第二层次:知道相关关系的方向,即是正相关还是负相关;
(3)第三层次:知道相关关系的强度,即是不相关、完全相关还是不完全相关;
(4)第四层次:知道变量的联合概率或联合频数分布。
按照相关性的定义,我们其实可以这样理解,在宇宙中,无论时间和空间关系如何,在一定条件下,事物之间总是有相关性的(这句话有点烧脑)。举个例子,我们任何一个人,和美国总统特朗普都有相关性,也和苍老师都有相关性,特朗普和苍老师也有相关性。不理解的结合上面的内容再想想。从这个角度来讲,那些鸡汤文也不无道理。
二、相关和回归还有区别?
统计学大抵给我们留下的唯一词语就是“回归”了。写文章时,把一堆数据导入到SPSS等软件中,点击回归相关的操作运行一下,一篇文章所需的数据就新鲜出炉啦,而且里面还有我们特别需要的P值。当然,我们更多时候是在看文章,也特别关注P值。
回归,指的是一个能从一个变量预测另一个变量的数学方程。回归因而提示着某种作用方向。所以,回归是相关的一种。换用非统计学的话来说,就是首先要有相关性,先做相关性分析而明确相关方向和程度,然后回归分析的结果才有意义。如果二者本身不相关,回归后P值的显著性再大,也是没有意义的。比如将特朗普与苍老师做回归分析,得出如性取向、爱发推文等的任何变量的显著性,几乎都没有意义。比如某日特朗普和苍老师在同一时刻都发了一条推文,都是祝福大家圣诞节快乐,然后来个“震惊:特朗普和苍老师同时同时发文告诉我们一件事情”的标题党文章,大抵要被喷死的。
三、为什么说具有相关性而不一定具有因果关系?
因果关系是一种特殊关系的存在,特殊得恰如人群中的夫妻关系。我们和很多人都会有关系,但有夫妻关系的少之又少。如果把晚上十点在一起吃饭的关系,就推定为夫妻关系,那么我们医药代表晚上开会后,大抵不敢一起吃个夜宵了。同样的,把有相关性的就推定为有因果关系,也是在犯“看见一男一女晚上在一起就认定为是夫妻”的类似错误。再回到特朗普和苍老师身上,他们在天黑就想睡觉等方面都具有一致性,也就是说存在相关性。但是,他俩之间应该不是夫妻关系(如果真有,这必将成为21世纪最大的新闻之一)。
因果关系需要明确A和B之间的关联,是由A引起B(而不是B引起A,也不是A、B均有C引起)。例如巴黎夏天的冰激凌销量增加(A),与巴黎的溺水死亡人数(B)存在正相关。如果通过立法限制巴黎冰激凌的销量以期减少夏天溺亡人数,明显忽视了天气热这一强大因素的存在(都由C引起)。再比如,个人努力程度(A),与销售指标完成率(B)也并不是一个确定性的因果关系;很有可能是感觉能够完成指标(B),然后才去努力的(A);明知完不成(B),也要努力(A),是要发好人卡的;或者非常努力(A),但是遇到掉标、限方等原因还是完不成指标(B)——这是一个悲伤的故事。
因果关系除了有发生概率之分,还有直接因果关系和间接因果关系之分。我们医学上所说的因果关系通常是指直接因果关系。间接因果关系因为多重推导、存在多种不确定中间因素等原因,是比较弱的因果关系。例如颈动脉内膜中层厚度与心血管事件死亡就属于间接因果关系。ASCVD通常是通过血栓脱落造成血管堵塞而死亡的,通常需要炎症等其他因素导致血栓脱落。所以,法律上人通常不会为有间接因果关系的结果负责,医学上我们通常倾向于首先干预有直接因果关系的指标。
四、假定因果关系必须具备的条件是什么?
假定因果关系,必须满足一些条件,这些条件是一系列试验所得出的综合结论。Hill AB.(1965年)对此作出了比较全面的条件探讨:
①是否是针对我们所讨论患者类型的相似人群得来的研究证据?
②因素之间是否有很高程度的关联?
③各个相似研究中得到的关联是否一致?
④是否存在时间上的先后顺序,即所假定的原因是否先于所假定的效应?
⑤存在剂量-效应梯度吗,即是否所推论的原因发生越多,所推论的效果出现得也越大?
⑥这种关联是否具有流行病学意义?
⑦这种关联是否具有生物学意义?
⑧这个关联是否具有特异性?
⑨现在这个关联,是否与之前证实的因果关系具有相似之处?
所以说,要得出因果关系,并非易事,通常需要一个学科甚至多学科专家协作,经历长达甚至几十年的不懈努力,用多项一致性的证据得出比较确定的因果关系结论。且这一结论有时还会反复,例如颈动脉内膜中层厚度,既往认为与动脉粥样硬化性心血管疾病终点事件存在因果关系,所以作为预测的中间指标。但这几年的全球指南,相继都认为其不再是可靠的中间指标。但是,心血管医生仍然习惯在监测,也不知道啥时候指南会再改回来。
五、小结
特朗普和苍老师之间,在某些条件下会有相关性,但这个相关性似乎太弱了,所作出的任何回归分析结果应该都是没有意义的(这样的新闻发出来也不会有人看)。进一步来讲,他俩也不存在什么直接的因果关系。如果非要说他俩还有什么因果关系,也是一些八杆子打不着的间接因果关系。比如,在某年某月某日某时,他俩居然都在床上的。
参考文献:
[1]张小天. 因果关系与相关关系:它们的关系及它们的差异[J]. 社会学研究,1992,(03):97-101.
[2]Hill AB. The environment and disease: association or causation?[J] Proc R Soc Med. 1965;58:295-300.