原标题:富国低生育率表明富人更不愿养孩子?小心“区群谬误”!
近日,几位朋友在微信群里聊及生育率这一话题。
A君提到人口经济学中的一大典型事实:经济发展水平越高的国家,其生育率越低。
B君立即追问道:“变得更富裕的人们为何更不愿意养孩子呢?”
“这都哪跟哪啊,即便‘经济发展水平更高的国家具有更低的生育率’是事实,你也不能由此推出‘富人更不愿意养孩子’这个结论呀!”C君素来喜与B君“抬扛”。
“道理何在,愿闻其详”,B君回怼C君,而C君一时语塞。
作为一个具有统计学背景且“好为人师”的大学教师,我马上意识到,对统计学进行科普的一次难得机会又被我遇上了。其实,B君由“经济发展水平更高的国家具有更低的生育率”这一事实推导出“富人更不愿意养孩子”的结论,陷入了一个著名的统计学谬误。
此统计学谬误就是所谓的“区群谬误”。听起来,这是一个比较抽象的术语,在此我们不妨首先通过一个具体案例来理解其含义。该案例引自美国社会学家劳伦斯·纽曼的著作《社会研究入门》,梗概如下:
有两个分别名为汤姆和琼斯的小镇。两个镇的总人口数相差不多,但汤姆小镇的平均收入水平更高,同时该镇的摩托车登记数量也更多,共有4000辆。琼斯小镇有很多穷人,所以平均收入水平低,同时该镇的摩托车登记数量也仅有100辆。在查看了关于这两个小镇的数据后,我们或许认为,富人更有可能拥有摩托车。
然而,假若我们不掌握摩托车究竟是由两个小镇的哪些家庭所拥有这种微观调查数据,则根本无法由平均收入与摩托车数量这两个宏观变量的关系,推导出“富人更有可能拥有摩托车”这一微观行为。在这里,宏观变量的分析单位是作为整体的镇子,而真实的微观行为也许是:在汤姆小镇,所有中低收入家庭都加入了摩托车俱乐部,但没有任何一个高收入家庭加入;在琼斯小镇,100辆摩托车全部由低收入家庭拥有。
《社会研究入门:如何理解我们的日常社会生活》,劳伦斯·纽曼 著,刘佳昕 译,后浪出版公司2021年3月出版。
上述案例表明,如果我们试图了解摩托车拥有情况与家庭收入之间的关系,就必须收集以家庭而非镇子为分析单位的数据。至此,何谓区群谬误就“水落石出”了——这是一种由于错误匹配分析单位而产生的统计学谬误。更具体地说,如果数据有着高层次或聚合的分析单位,而我们却据此对低层次或分解的分析单位做出结论性判断,就会犯下区群谬误。
有趣的是,虽然区群谬误是一个著名的统计学谬误,但最早却是由美国社会学家威廉·罗宾逊提出的。罗宾逊是一位极有个性的学者,他对当时社会学研究中充斥着区群谬误感到十分失望,最后竟然因此而退出了学术界。关于这段历史掌故,要从1950年罗宾逊发表于《美国社会学评论》的一篇论文说起。
在这篇论文中,罗宾逊基于美国1930年人口普查数据,分析了48个州的识字率与新移民人口比例的关系。他发现,在州层面,识字率与新移民所占总人口比例的相关系数为0.53——表明一个州的新移民比例愈高,则一般来说这个州的识字率愈高。按照人们通常的思维方式,这意味着:与本地人相比,新移民普遍具有更高的识字率。然而,罗宾逊对此推论表示怀疑,于是决定基于居民个体资料展开进一步的研究。
罗宾逊最后揭示出的真相是,新移民的识字率要比本地居民低;之所以在州层面出现识字率与新移民人口比例的正相关关系,是因为新移民倾向于在识字率较高的州定居。罗宾逊指出,假若人们基于识字率与新移民人口比例在州层面的正相关性,推导出新移民具有更高识字率的结论,就陷入了所谓的区群谬误。
不幸的是,由于当时社会学研究者所掌握的数据常常是区域或者城市层面上的宏观汇总数据,区群谬误在学术研究成果中广泛存在。例如,有研究发现,移民所占一个美国城市人口的比例越高,该城市的犯罪率就越高,而研究者据此推论道:移民要比本地居民更容易犯罪。但事实上,在移民多的城市,移民往往是受害者而非犯罪者,因为很多犯罪案件是本地白人针对移民的“仇恨犯罪”。
对于社会学研究成果的科学性,罗宾逊感到疑虑重重,遂在文章发表后就毫不犹豫地放弃了学术研究。罗宾逊提出区群谬误,不仅引发了社会学研究的危机,而且对整个社会科学研究造成了不小的冲击。这是因为,在社会科学研究中,社会学研究的数据处理方式是具有代表性的。
不过,“有危才有机”,区群谬误也成为了主要由美国密西根大学社会学系发起的“统计调查革命”的导火线。随着统计调查革命的兴起,学者们逐渐放弃使用一般由官方统计机构提供的宏观汇总数据,越来越重视通过统计调查收集微观个体数据,来展开对微观行为的学术研究。
行文至此,我们再通过一个简单的例子来加深对区群谬误的理解。
2016年的一项研究表明,在人口大国中,美国是肥胖率最高的国家,每年因肥胖问题而额外承担的医疗负担超过1500亿美元。鉴于美国同时也是一个高收入国家,那么我们是否可由此推断,肥胖主要是“富人的疾病”呢?
其实,居民层面上的微观数据显示,在高收入国家,肥胖更多是“穷人的疾病”。例如,在过去四分之一个世纪,美国穷人的身体质量指数(BMI,正常值在20至25之间,高于25为超重、高于30为肥胖)始终显著高于富人,穷人孩子的肥胖症率要比富家子弟高出70%。
如果富国高肥胖率不表明肥胖是“富人的疾病”,那么与此道理完全相同,富国低生育率也并不表明富人更不愿养孩子。要回答富人是否真的更不愿养孩子这个问题,需收集家庭微观数据进行统计分析。
(作者姚耀军为浙江工商大学金融学院教授)
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“融道中国”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场。
延伸阅读
版权所有:融道中国