选择性偏差举例(不可忽视的统计现象)
选择性偏差举例(不可忽视的统计现象)正如卡尼曼概括到:“我们的思维常常会对因果关系的解释带有很强的偏见,不善于处理统计数据,又非常容易被少量、孤立、影响重大的数据所吸引。”两次强调了选择性偏差所带来的影响。选择性偏差不仅容易误导人们得出虚假的相关关系,还可能错得更离谱!第二次世界大战期间,统计学家瓦尔德受聘帮助军方评估飞机在遇到敌军射击时应添加钢板的位置,现有资料显示机身某些部位的弹孔特别多,军方人员认为这些弹孔多的地方应加强保护;然而,瓦尔德却给出相反的结论:弹孔最少的地方应添加钢板以增强防护。瓦尔德的建议反映了对选择性偏差的洞悉,因为军方手上只有归航飞机的受损资料,仅将归航飞机作为样本显然易得出应加强防护弹孔多的地方。若将被击落的飞机一同纳入研究样本,就可以推断出很多飞机一去不返是因为被击中了要害部位,那么相对来说返航飞机被击中的地方反而不那么关键。所以,应加强防护返航飞机的弹孔最少之处,这是大家都熟悉的幸存者偏差,也是
程开明 于静涵统计史上有这样一个著名案例,1946年,伯克森观测一家医院住院病人中糖尿病病人和胆囊炎病人的情况,发现患有糖尿病的人群中同时患胆囊炎的人数较少,而没有糖尿病的人群中患胆囊炎的人数比例较高。这一结果似乎说明患有糖尿病可以保护病人不受到胆囊炎的折磨,但医学上无法证明糖尿病能对胆囊炎起到任何的保护作用。糖尿病与胆囊炎之所以表现出负相关性,是因为伯克森只统计了医院中的患者,如果对全体人群进行统计,就会发现糖尿病和胆囊炎之间并不存在相关性,这一现象通常被称为伯克森悖论。
为什么会产生伯克森悖论呢?原因在于研究样本存在选择性偏差。忽略身体健康而没有入院的人,只把医院病人作为统计对象,而这些病人之所以住院,一定是患有这样或那样的疾病,没有糖尿病的患者通常患有其他疾病如胆囊炎,如此会便出现糖尿病与胆囊炎负相关的假象。现实中,人们往往过分强调易于掌握的信息,而忽略其他潜在可能性的证据,仅根据部分有偏信息作出判断,结果容易出现选择性偏差,导致伯克森悖论。
|何为选择性偏差
所谓选择性偏差(Selection Bias),又称选择效应,是指这样一种认知倾向:人们喜欢把事物分为某种典型的类别,对事件进行概率估计时往往过分强调这一类别的重要性,而不顾其他潜在的可能性。选择性偏差的本质在于研究样本的选择,当所选取的案例或样本无法体现出对总体的代表性时,被选样本则不能准确反映总体特征,进而导致相关性度量的失真(臧雷振和陈鹏,2015)。自伯克森悖论提出后,选择性偏差对研究结果的影响一直是人口学、公共卫生等领域的焦点,也受到经济学、社会学的广泛关注。
艾伦伯格在《如何不犯错》中提到一个有趣的例子:选择性偏差会加剧“帅哥都是渣男”的刻板印象。假定亚历克斯只愿意和一个善良或帅气超过某一阈值的男人约会,这意味着:如果一个男生很渣但真的很帅,亚历克斯会和他约会;同样,如果一个男生真的很善良,亚历克斯也会和他约会,即使他长相方面有所欠缺。结果是,亚历克斯约会的许多英俊男人并不怎么善良,约会的很多善良男人并不怎么好看。难道,帅哥真的都是渣男吗?其实,这一表象是由选择性偏差所致,毕竟既善良又英俊的男人与前两种男人相比数量少之又少。亚历克斯的筛选条件导致了约会对象的非随机性,加剧了“帅哥都是渣男”这一刻板印象。
另一典型案例来自于珀尔所著的《因果关系:模型、推理和推论》一书。大学招生办公室通常根据GPA(平均分学绩点)和SAT(学术能力评估测试)成绩来录取符合条件的学生,希望录取既有高GPA成绩又有高SAT成绩的学生,但这样的学生通常会被更高层次的学校录取,那么只能退而求其次,录取那些有很高GPA分数或者很高SAT分数的学生。如此,若一个学生的SAT分数很高,学校大概率会录取他,即使他的GPA成绩很差;同样,如果一个的学生GPA成绩很高但SAT分数很差,学校也通常会录取他。正是因为存在选择性偏差,导致录取学生群体中GPA成绩和SAT分数之间呈现出负相关性,选择性偏差导致虚假相关。
一位著名收藏家藏有1000张邮票,其中300张非常漂亮,100张很稀有,30张既漂亮又稀有。显然,他所有邮票中10%(100/1000)是稀有的,漂亮邮票中也有10%(30/300)是稀有的。可见,无论邮票漂亮与否,稀有邮票的占比都是10%,漂亮和稀有之间没有关联性。假如收藏家仅展出了漂亮或稀有的邮票(共370枚),此时稀有邮票占比超过27%(100/370),但漂亮邮票中稀有邮票仅占10%(30/300),给人的直觉便是:漂亮邮票中稀有邮票的占比较少,漂亮和稀有之间呈现出一种负向关联。事实上,收藏家的所有邮票中,稀有邮票不论是总体上还是在漂亮邮票中,其占比都是10%,邮票稀有与否和其漂不漂亮无关。这里的选择性偏差在于,展出的370张邮票不是随机选择的,不能代表1000张邮票的总体特征。因此,当存在选择效应时,妄下结论很可能导致错误的判断。
选择性偏差不仅容易误导人们得出虚假的相关关系,还可能错得更离谱!第二次世界大战期间,统计学家瓦尔德受聘帮助军方评估飞机在遇到敌军射击时应添加钢板的位置,现有资料显示机身某些部位的弹孔特别多,军方人员认为这些弹孔多的地方应加强保护;然而,瓦尔德却给出相反的结论:弹孔最少的地方应添加钢板以增强防护。瓦尔德的建议反映了对选择性偏差的洞悉,因为军方手上只有归航飞机的受损资料,仅将归航飞机作为样本显然易得出应加强防护弹孔多的地方。若将被击落的飞机一同纳入研究样本,就可以推断出很多飞机一去不返是因为被击中了要害部位,那么相对来说返航飞机被击中的地方反而不那么关键。所以,应加强防护返航飞机的弹孔最少之处,这是大家都熟悉的幸存者偏差,也是选择性偏差的一种。
正如卡尼曼概括到:“我们的思维常常会对因果关系的解释带有很强的偏见,不善于处理统计数据,又非常容易被少量、孤立、影响重大的数据所吸引。”两次强调了选择性偏差所带来的影响。
|选择性偏差何以产生
为什么人们的直观判断容易出现选择性偏差?这一现象背后的原因与机制是什么?不同领域的学者提出了不一样的解释,为准确地识别选择性偏差,将其中具有代表性的因由概括为以下几类。
一是样本选择偏差。当研究总体的某些子样本不可观测时,可得样本存在非随机性,无法代表总体,导致推断结论存在偏差。对样本选择偏差的研究工作始于诺贝尔奖得主赫克曼,最典型的例子是探究女性受教育程度对工资的影响。考察二者关系需要随机收集女性工资、受教育程度以及其他特征数据例如年龄,毕业院校等;然而愿意登记工资信息的女性都是有工作的,那些没有工作女性的工资情况往往无法获得,即使她的受教育程度很高。这使得大量没有工作的女性不包含在研究样本中,样本失去随机性,不能反映总体的真实情况,据其作出判断容易得到有偏差的结论。
二是自选择偏差。考察事物之间的关系,因个体的主动选择导致不同组别的样本不随机,即实验组和对照组初始条件不完全相同,对所检验的结果容易产生偏差性认识。许多更年期之后的女性曾被怂恿去尝试激素替代疗法(HRT),因为有报道说这一疗法可以降低心脏疾病的概率,表明这一关联性的早期研究仅是把一组选择HRT和一组没有选择HTR的女性开展对比分析。然而,将研究样本进行随机分配实验发现,HRT根本不能降低患心脏病的概率,出现上述结果只是因为自主选择HRT的女性比不选择HRT的女性本来更重视身体健康,更加积极地进行锻炼,不那么肥胖也更不可能抽烟。正是由于自选择效应的存在,故而不能简单地说HRT是减少心脏疾病的原因。两个变量之间存在相关性并不能保证一个变量的变化会导致另一变量的变动,也不意味着它们之间存在着直接的因果路径,很可能是因为两个变量都与未被观测的第三变量有关。确保自选择偏差不来捣乱的有效方法,是在操纵所有变量的情况下开展大规模随机对照实验。
三是幸存者偏差。幸存者偏差也是一种典型的选择性偏差,通常是指只看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因而忽略了被筛选掉的关键信息。许多著名的绩效管理理论就充斥着大量的幸存者偏差,《从核心扩张》一书指出,78%的高绩效企业专注于单一核心事业,而只有22%的低绩效企业这么做。此项研究涵括了1854家公司,根据股价报酬、营业额、利润率等来衡量绩效,但只考察了研究期间内存活于市场的企业,并未考虑任何一家采用专注策略却破产的公司。如果将那些失败倒闭的公司包含进来,研究结论将会大幅改变。根据两位作者的说法,所有公司中的13%创造了高绩效,而高绩效公司中的78%(188家)专注于核心事业;假设当时另有200家公司采取专注策略却倒闭了,将这一数字纳入样本后,“专注”与“绩效”的真正关系就跟如克和艾伦的推论正好相反。避免幸存者偏差,意识到“沉默证据”的存在,如此才能获得全面认知。
四是易得性偏差。人们进行决策时往往依赖于容易获取的信息,并对这些信息过分使用,但这些信息对于决策判断可能不重要或不全面。许多投资者沉迷于K线图等技术分析,一方面是因为K线图以价格、成交量等历史数据为基础且由软件自动生成,很容易演绎出非常复杂的各类趋势线和指标,技术分析“专家”通常基于这种容易得到的信息而忽略对市场、股价有影响的其他重要因素,形成看似复杂的理论;另一方面是投资者最先接触的往往就是行情软件,K线图和技术指标是最容易获得的信息且直接关系到股价,与盈亏距离最近。然而,企业的估值需要综合考虑所处行业、竞争优势、财务指标等因素,并认清企业的发展阶段,是非常复杂且没有定式的综合性过程。简单的财务数据容易获取,但仅基于财务指标进行估值,投资决策难免受到选择性偏差的影响。正如芒格被广为流传的经典格言:“对于只有锤子的人而言,每个问题都像是一个钉子。”
五是确认性偏差。确认性偏差是指个人选择性地回忆、搜集有利细节,而忽略不利或与预期相矛盾的信息,以支持已有的想法。这种偏见尤其显见于感情问题和传统观念,人们常偏好支持自己原先立场的观点,也倾向于将模棱两可的事实做出有利于自己观点的解释。在投资领域,这类问题非常严重,当投资者买入某公司股票后,特别是投入大量心血研究分析后进行的决策,往往对该公司股票产生确认性偏误,后期在收集信息时更倾向于选择和相信“利好的信息”,拒绝和反感“利空的信息”,影响投资决策的科学性。以特维斯基和卡尼曼为代表的经济学家将之归纳为:投资者由于认知容量的局限性,在某一时点不能处理所有信息,总是选择少数事物作为认知对象,以使被认知的对象从环境中凸显出来,这是选择性偏差的典型特征之一。
|如何避免选择性偏差
当人们作出决策判断时,某些信息过于引起关注,让人们误以为它代表了目标整体,从而陷入选择性偏差的“陷阱”。选择性偏差势必使人们倾向于“洞察”到某种模式,极易造成虚假的相关关系,高估或低估因果关系甚至得到与真实关系完全相反的结论。充满诱惑的相关性证据加上固有的偏见,能够欺骗最聪明的头脑,那么怎样才能使聪明头脑免受选择性偏差的欺骗呢?
其一,重视样本对总体的代表性。前述案例提供了大量的“反面教材”,无一不在提醒人们:不论何种原因,只要研究样本不能代表总体,就会导致对问题的认识产生选择性偏差。提高样本对总体的代表性,是显而易见的统计学要求,但也最易被忽视。一旦样本存在选择性偏差,据其得到的结论必然导致错误的决策。
其二,利用辩证思维约束直觉。卡尼曼指出:“我们在任何时候,都对周围的世界持有一种单一的解释,并将其视为真实的经验,通常很少投入精力去寻找其他可能的解释。”显然,全面认识事物需要辩证思维,深入洞悉所研究问题的本质,避免过分拘泥于已有信息。实际中,把定性分析和定量研究、总体特征和局部特征相结合,在同质性的基础上研究差异性,在差异性中归纳同质性。透过偶然性去发现必然性的同时,基于必然性来认识偶然性,采用辩证思维去分析问题,是警惕选择性偏差的重要一环。
其三,善于利用工具修正选择性偏差。在许多场合,即使费尽心思也难以确保搜集到的资料没有偏差,如同研究女性受教育程度对工资影响的案例,由于无法调查到那些没有工作的女性工资,导致研究样本难以包含未工作的女性。为此,统计学家和经济学家发明了许多有针对性的解决方法,譬如鲁宾因果模型、断点回归、倾向得分匹配及Heckman两阶段模型等,用以帮助修正选择性偏差,开展切实的因果效应评估。本质上来看,这类因果推断行为很像是从冰山尖端有效推测冰山全貌。学者们逐步利用这些方法来修正自己研究中可能存在的选择性偏差,并倡导将其应用于更广泛的领域。
作者单位:浙江工商大学统计与数学学院
参考文献
[1]Jerker Denrell 王一方译.选择性偏差及标杆学习的危险[J]. 管理知慧 2005(10):6.
[2]Pearl J.Comment:Understanding
Simpson's Paradox [J].The American Statistician 2014 68(1): 8-13.
[3]基思斯坦诺维奇(Keith E.
Stanovich)著. 突东微 刘肖岑译. 这才是心理学[M]. 中国人民大学出版社 2015.
[4]李金昌. 统计学的道[J]. 中国统计 2019(2):25-27.
[5]荣令睿.信息异质和选择性偏差[J].投资与理财 2014
(5):68-68.
[6]臧雷振 陈鹏. 选择性偏差问题及其识别[J]. 世界经济与政治 2015 (4):137-153.
转载自《中国统计》