戏说统计续编 作者 | 李连江 出版时间 | 2019年7月 出版社 | 当代世界出版社 下文收录于该书第九章 第十七节 内生性问题 内生性问题指的是自变量(解释变量)与误差项高度相关,通常由两个原因造成。第一,有个未被控制的干扰变量既是自变量的原因,也是因变量的原因。例如,讲多元回归和控制变量时,统计老师的经典例子是:一个海滨城市每天的溺水事件数量的原因,貌似是该城市每天的冰淇淋消费量,冰淇淋消费量越大,溺水事件越多;冰淇淋消费量越小,溺水事件越少。出现这个似是而非的回归分析结果,是因为没有控制干扰变量“气温”。 第二,回归模型中的自变量与因变量互为因果,此为彼之因,彼亦为此之因。经济学的经典例子是,如果以商品价格为因变量,以消费者需求为自变量,回归分析就存在内生性问题。原因是,商品价格与消费需求互为因果。如果以消费者的“口味”变化为自变量,就不存在内生性,因为“口味”理论上独立于“价格”。口味毋庸争辩,类似于我们常说的:萝卜白菜,各有所爱。 “内生性”是真问题,但许多期刊论文中五花八门的“工具变量”往往是伪解决。不要太相信专家的说法,专家重视内生性问题,因为他们真的认为社会科学里边可以找到因果关系。我觉得社会科学只能找到相关系数的意义。如果用自然科学家或经济学家的态度看内生性问题,社会科学量化研究几乎都不值得做。 第十八节 关于统计检验 顶级期刊往往更重视方法的精确,内容是否成立反而是次要考虑。所以,写量化研究的文章,做种种精致的统计检验,最能体现作者的技术水平。量化分析的检验很多,几乎不可能完全掌握。我的做法是,常见的检验必做,不常见的,先看看目标刊物最近的文章,了解一下刊物的主编和评审要求做哪些检验。大约十年前,听朋友转述芝加哥大学一位名教授的话,大意是:不处理design effect,文章不可能在Americal Sociological Review发表。反正我不奢望在这样的顶级刊物发文章,听了只当耳旁风,但是记住了有个design effect。后来,看了看Stata的svy指令,才知道那时觉得神秘的design effect其实极其简单,关键是手头的数据里是否有PSU、SSU和权重等相关信息。专家天天琢磨新道道,用户与时俱进就可以了。 第十九节 区分三类零假设 社会科学常用的统计分析中,有三类零假设。清晰区分它们,可以少走弯路。 第一类零假设是关于总体参数的零假设。做双边检验,研究假设的内容是:两个变量之间在总体中有系统关系;零假设的内容是:两个变量之间在总体中没有系统关系。做单边检验,如果研究假设的内容是:两个变量之间在总体中有系统的正相关;那么零假设的内容是:两个变量之间在总体中没有系统的负相关;如果研究假设的内容是:两个变量之间在总体中有系统的负相关;那么零假设的内容是:两个变量之间在总体中没有系统的正相关。我们设立这类零假设的目的是有信心地放弃它。 第二类零假设是关于回归模型与观察数据之拟合优度的零假设。拟合优度是专业术语,我喜欢用直白的“契合度”和“合身度”或“合体度”。我们做对数回归时使用最大似然估计,如果只对分析结果感兴趣,可以不理会这类零假设。如果好奇心强,想大概搞清楚最大似然估计摸着石头过河的估计过程,需要注意这类零假设。这类零假设的内容是:最大似然估计的全过程中提出的每个回归模型与观察数据完全契合,差距为零。也可以说,这类零假设的内容是:如果总体参数就是回归模型中的回归系数,我们观察的现实情况(即数据中看到的因变量的实际情况)发生的可能性(即似然,亦即过去时的概率)最大。我们设立这类零假设,目的并不是简单地放弃。对于初始模型,即回归系数都是0的回归模型,设立零假设是为了放弃它。放弃认为初始模型与数据零差距的零假设,就是放弃一系列第一类零假设,即关于总体参数的零假设。放弃关于初始模型的零假设,是摸着石头过河的起点,如果不放弃,就无河可过了。但这个放弃不是简单的放弃,下一步是摸第一块石头,即做最大似然估计的第一步。最大似然估计的第一步做出的回归模型,根据数据的实际情况用正数或负数取代初始模型中的0。关于这个回归模型,设立零假设也是为了放弃,但不是简单放弃,是黑格尔讲的“扬弃”(Aufheben)。扬弃有两个方面,“扬”是看新构建的回归模型是否“显著地”比初始模型更契合数据,如果作为契合度指标的“负二倍”的变化显示契合度显著提高,说明估计的方向正确,值得继续“发扬”;“弃”是看这个回归模型是否完美契合观察数据,不完美契合,就应该放弃零假设,继续探索。对最大似然估计最后一步得到的回归模型,设立零假设也有双重目的,不过不是“扬弃”,而是“妥协”。一方面,我们承认可以有信心地放弃它,在实际研究中,最终模型通常不完美契合观察数据。另一方面,我们解释为什么不放弃它,理由是它虽然不完美,然而是最接近现实的模型,是“最大似然估计”的结果。在这个意义上,最大似然估计的逻辑是治疗完美主义的良方。最后,我们在现实面前宣布自己惨胜,一方面认输,承认找不出完美的模型;另一方面,单方面宣布获胜,声称找到了最合适的模型。然后说,既然这件衣服最合身,那么它显示的尺寸应该就是主人身体的尺寸。 第三类零假设是做结构方程建模时遇到的,内容是:我们构建的结构方程模型,不论是测量模型还是结构模型,与观察数据之间零距离,完全合身。衬衣合身,我们才有信心根据衬衣各部分的尺寸猜测衬衣主人身体的尺寸,即认为样本统计值是对总体参数的可信估计(plausible estimates)。设立这类零假设,不是为了放弃它,而是为了接受它。所以,如果这个零假设不能通过绝对拟合检验,我们会退而求其次,采用比较宽松的渐进拟合检验。为了让模型通过比较宽松的渐进拟合检验,我们还会修改模型,这时也会采用最宽松的检验标准。 第二十节 关于研究直觉 研究直觉,类似猎手对猎物的直觉,就是清晰意识到想找什么,隐约知道到哪里找,大约怎样找。德语有句民谚:Wer sucht, der findet(谁寻找,谁找到)。这类“有志者事竟成”的励志谚语,故意混淆“必要条件”和“充分必要条件”。在学术研究中,寻找可不是件容易事。首先是知道找什么,很难。其次是知道到哪里找,也很难。最后是知道是否已经找到,更难。所以,寻寻觅觅,空手而归,司空见惯。 第二十一节 怎样处理缺失值 多元模拟缺失值(multiple imputation of missingvalues),是标准做法。能做模拟的软件好几种,无所谓优劣,应用时要靠专业知识和常识。分析模拟出来的数据要遵循Rubins Rules。把imputation 译为“插补”,正如把“embeddedness”译为“嵌入”,有不懂装懂之嫌。 第二十二节 为什么取自变量的平方 有的时候会取自变量的平方,并把自变量与它的平方都作为自变量纳入回归模型,这是为了检测该自变量与因变量是否曲线相关。最常见的情况是把年龄与年龄的平方都作为自变量纳入回归模型,目的是检测年龄与因变量是否曲线相关。 曲线相关有四种情况。第一,物极必反,例如下图中紧张度与工作效率的关系。完全放松,“葛优躺”,没有工作效率;紧张度慢慢提高,工作效率递增,二者正相关;过了一个节点,物极必反,亢龙有悔,越紧张,越不出活,紧张变成焦虑了,与工作效率负相关。如果只把紧张度作为自变量放在回归模型中,会发现它与工作效率没有显著关系,因为正相关与负相关互相抵消了。下面这张图,像张发愁的脸。体现在回归系数上,原自变量的系数是正数,原自变量的平方的系数是负数,两个系数都显著。 第二,触底反弹,例如下图中年龄与所需关照的关系。新生儿需要很多关照,年龄渐长,需要的关照量递减,年龄与需要的关照量负相关;过了一个节点,需要的关照量与年俱增,年龄与需要的关照量正相关。如果只把年龄作为自变量放在回归模型中,会发现它与需要的关照量没有显著关系,因为正相关与负相关互相抵消了。下面这个图,像张微笑的脸。体现在回归系数上,原自变量的系数是负数,原自变量的平方的系数是正数,两个系数都显著。 第三,先扬后平。例如,每天用功学习的时间是成绩,大约是先扬后平。用功时间从0小时到8小时,与成绩显著正相关,8小时以上,用功时间与成绩就不再显著。体现在回归系数上,原自变量的系数是正数,显著;原自变量的平方的系数是负数,但不显著。 第四,先抑后平。例如,欠债的数量与心情的关系,据说是先抑后平。欠债从无到有,从少到多,在欠债量达到某个限度前,欠债越多,心情越压抑。过了某个限度,欠债量对心情的负影响就不再显著。有句俏皮话,“虱多不痒,债多不愁”,说的大概就是由抑转平后的境界。更健康的例子,是每天的减肥锻炼时间与身体中脂肪量的关系。体现在回归系数上,原自变量的系数是负数,显著;原自变量的平方的系数是正数,但不显著。 第二十三节 为什么要加权 有两个术语,调查抽样效应(design effect)和抽样权重(sampling weight)。权重就是weight,重量。加权是weighting,是称重。称重可以增,可以减,不是“只加不减”。加权是为了让样本中每个人的分量相同,或代表力相同。举个加权的例子。抽样时,在10万人的A县随机抽到400人,B县20万人,也随机抽到400人。分析数据时,不能简单地把两个县的样本加在一起,变成一个800人样本。原因是,A县的400人比B县的400人分量要轻。A县的400人,每个人代表250人;B县的400人,每个人代表500人;B县样本中,一个人的分量是A县样本中一个人的分量的2倍。分析时,要给B县的人分量加倍。方法是在数据库中构建一个权重变量,A县的人,权重都是1,B县的人,权重都是2,做回归分析时,把权重纳入回归模型。这就是加权。 第二十四节 为什么取收入的对数 取对数的功能是挤水分,比如,月收入从1000元涨到2000元的意义,大于从2000元涨到3000元的意义,如果多数人的月收入以千元计算,极少数人的收入以十万、百万、千万计算,取对数就可以把这些特别高的收入中的水分挤掉。不是说那些人的钱不是钱,而是说那些人的钱对他们的幸福度的贡献不像表面看来那么大。 给个人收入取对数,符合我们的直觉。收入低的时候,多一块钱是一块钱,收入越高,多一块钱的意义越小,对于超级富豪来说,多一块钱只是一个微不足道的数。对数的特点就是把很大的数变得很小。以10为底数,1的对数是0,10的对数是1,100的对数是2,1000的对数是3。看底数,从1变成了1000,看对数,只是从1变成了3。《西游记》中有句话,可以帮我们理解对数。“天上一日,地上一年。”一段时间,用地上的量纲(自然数)测量是一年,用天上的量纲(对数)测是一天。 第二十五节 咬文嚼字是好习惯 我认为把variable译为“变项”比译为“变量”更好。有人说,如此咬文嚼字,类似孔乙己津津乐道于“茴”字有四种写法。我不这么认为。“变项”不是我的译法,我只是觉得这个译法更高明。“变项”指变化的东西,量化方法只是用数量测量和记录那“东西”的不同状况。把“variable”译成“变量”,让人觉得量化方法研究的对象就是“数量”。“变项”让人思考“变项之变”,“变量”让人专注于“量的变化”。做量化研究,最难回答的问题是“变项之变”,尤其是“因变量之变”,然而这个问题常被忽略。本书从俗,统一采用“变量”,但假定读者真懂这个词的含义。顺便说一句,不赞成咬文嚼字的人,往往用词含糊粗略。遇到“质化”“信度”“田野”等类似笑话的翻译,遇到“多谢聆听”“敬请期待”这样的怪诞说法,不会有足够的敏感。清楚理解variable的含义,才不必过分执着于如何翻译。 第二十六节 统计上显著不等于实质上重要
第二十七节 动态细读统计图表
第二十八节 多层线性建模
第三十节 万法归一
第三十一节 学量化方法是为了建立概率思维
第三十二节 善于跟网上的老师学习
第三十三节 量化方法是一种“语言游戏” 维特根斯坦是20世纪的大哲学家。像柏拉图一样,他一生创建了两个表面不相容的哲学体系。年轻时,他强调语言是世界的逻辑图画,追求语言意义的清晰明白。后半生,他认识到语言是人的生活与其他实践的工具,科学研究是人的实践的一部分。他的早期哲学与晚期哲学各有价值,不是相互替代,而是相互补充。如果说维特根斯坦早期哲学的关键词是逻辑,那么后期哲学的关键词是游戏。
|
|