李连江：关于研究方法的只言片语——下篇（纯干货）

wheatfa 2019-09-13

展开全文

戏说统计续编

作者 | 李连江

出版时间 | 2019年7月

出版社 | 当代世界出版社

下文收录于该书第九章

第十七节内生性问题

内生性问题指的是自变量（解释变量）与误差项高度相关，通常由两个原因造成。第一，有个未被控制的干扰变量既是自变量的原因，也是因变量的原因。例如，讲多元回归和控制变量时，统计老师的经典例子是：一个海滨城市每天的溺水事件数量的原因，貌似是该城市每天的冰淇淋消费量，冰淇淋消费量越大，溺水事件越多；冰淇淋消费量越小，溺水事件越少。出现这个似是而非的回归分析结果，是因为没有控制干扰变量“气温”。

第二，回归模型中的自变量与因变量互为因果，此为彼之因，彼亦为此之因。经济学的经典例子是，如果以商品价格为因变量，以消费者需求为自变量，回归分析就存在内生性问题。原因是，商品价格与消费需求互为因果。如果以消费者的“口味”变化为自变量，就不存在内生性，因为“口味”理论上独立于“价格”。口味毋庸争辩，类似于我们常说的：萝卜白菜，各有所爱。

“内生性”是真问题，但许多期刊论文中五花八门的“工具变量”往往是伪解决。不要太相信专家的说法，专家重视内生性问题，因为他们真的认为社会科学里边可以找到因果关系。我觉得社会科学只能找到相关系数的意义。如果用自然科学家或经济学家的态度看内生性问题，社会科学量化研究几乎都不值得做。

第十八节关于统计检验

顶级期刊往往更重视方法的精确，内容是否成立反而是次要考虑。所以，写量化研究的文章，做种种精致的统计检验，最能体现作者的技术水平。量化分析的检验很多，几乎不可能完全掌握。我的做法是，常见的检验必做，不常见的，先看看目标刊物最近的文章，了解一下刊物的主编和评审要求做哪些检验。大约十年前，听朋友转述芝加哥大学一位名教授的话，大意是：不处理design effect，文章不可能在Americal Sociological Review发表。反正我不奢望在这样的顶级刊物发文章，听了只当耳旁风，但是记住了有个design effect。后来，看了看Stata的svy指令，才知道那时觉得神秘的design effect其实极其简单，关键是手头的数据里是否有PSU、SSU和权重等相关信息。专家天天琢磨新道道，用户与时俱进就可以了。

第十九节区分三类零假设

社会科学常用的统计分析中，有三类零假设。清晰区分它们，可以少走弯路。

第一类零假设是关于总体参数的零假设。做双边检验，研究假设的内容是：两个变量之间在总体中有系统关系；零假设的内容是：两个变量之间在总体中没有系统关系。做单边检验，如果研究假设的内容是：两个变量之间在总体中有系统的正相关；那么零假设的内容是：两个变量之间在总体中没有系统的负相关；如果研究假设的内容是：两个变量之间在总体中有系统的负相关；那么零假设的内容是：两个变量之间在总体中没有系统的正相关。我们设立这类零假设的目的是有信心地放弃它。

第二类零假设是关于回归模型与观察数据之拟合优度的零假设。拟合优度是专业术语，我喜欢用直白的“契合度”和“合身度”或“合体度”。我们做对数回归时使用最大似然估计，如果只对分析结果感兴趣，可以不理会这类零假设。如果好奇心强，想大概搞清楚最大似然估计摸着石头过河的估计过程，需要注意这类零假设。这类零假设的内容是：最大似然估计的全过程中提出的每个回归模型与观察数据完全契合，差距为零。也可以说，这类零假设的内容是：如果总体参数就是回归模型中的回归系数，我们观察的现实情况（即数据中看到的因变量的实际情况）发生的可能性（即似然，亦即过去时的概率）最大。我们设立这类零假设，目的并不是简单地放弃。对于初始模型，即回归系数都是0的回归模型，设立零假设是为了放弃它。放弃认为初始模型与数据零差距的零假设，就是放弃一系列第一类零假设，即关于总体参数的零假设。放弃关于初始模型的零假设，是摸着石头过河的起点，如果不放弃，就无河可过了。但这个放弃不是简单的放弃，下一步是摸第一块石头，即做最大似然估计的第一步。最大似然估计的第一步做出的回归模型，根据数据的实际情况用正数或负数取代初始模型中的0。关于这个回归模型，设立零假设也是为了放弃，但不是简单放弃，是黑格尔讲的“扬弃”（Aufheben）。扬弃有两个方面，“扬”是看新构建的回归模型是否“显著地”比初始模型更契合数据，如果作为契合度指标的“负二倍”的变化显示契合度显著提高，说明估计的方向正确，值得继续“发扬”；“弃”是看这个回归模型是否完美契合观察数据，不完美契合，就应该放弃零假设，继续探索。对最大似然估计最后一步得到的回归模型，设立零假设也有双重目的，不过不是“扬弃”，而是“妥协”。一方面，我们承认可以有信心地放弃它，在实际研究中，最终模型通常不完美契合观察数据。另一方面，我们解释为什么不放弃它，理由是它虽然不完美，然而是最接近现实的模型，是“最大似然估计”的结果。在这个意义上，最大似然估计的逻辑是治疗完美主义的良方。最后，我们在现实面前宣布自己惨胜，一方面认输，承认找不出完美的模型；另一方面，单方面宣布获胜，声称找到了最合适的模型。然后说，既然这件衣服最合身，那么它显示的尺寸应该就是主人身体的尺寸。

第三类零假设是做结构方程建模时遇到的，内容是：我们构建的结构方程模型，不论是测量模型还是结构模型，与观察数据之间零距离，完全合身。衬衣合身，我们才有信心根据衬衣各部分的尺寸猜测衬衣主人身体的尺寸，即认为样本统计值是对总体参数的可信估计（plausible estimates）。设立这类零假设，不是为了放弃它，而是为了接受它。所以，如果这个零假设不能通过绝对拟合检验，我们会退而求其次，采用比较宽松的渐进拟合检验。为了让模型通过比较宽松的渐进拟合检验，我们还会修改模型，这时也会采用最宽松的检验标准。

第二十节关于研究直觉

研究直觉，类似猎手对猎物的直觉，就是清晰意识到想找什么，隐约知道到哪里找，大约怎样找。德语有句民谚：Wer sucht, der findet（谁寻找，谁找到）。这类“有志者事竟成”的励志谚语，故意混淆“必要条件”和“充分必要条件”。在学术研究中，寻找可不是件容易事。首先是知道找什么，很难。其次是知道到哪里找，也很难。最后是知道是否已经找到，更难。所以，寻寻觅觅，空手而归，司空见惯。

第二十一节怎样处理缺失值

多元模拟缺失值（multiple imputation of missingvalues），是标准做法。能做模拟的软件好几种，无所谓优劣，应用时要靠专业知识和常识。分析模拟出来的数据要遵循Rubins Rules。把imputation 译为“插补”，正如把“embeddedness”译为“嵌入”，有不懂装懂之嫌。

第二十二节为什么取自变量的平方

有的时候会取自变量的平方，并把自变量与它的平方都作为自变量纳入回归模型，这是为了检测该自变量与因变量是否曲线相关。最常见的情况是把年龄与年龄的平方都作为自变量纳入回归模型，目的是检测年龄与因变量是否曲线相关。

曲线相关有四种情况。第一，物极必反，例如下图中紧张度与工作效率的关系。完全放松，“葛优躺”，没有工作效率；紧张度慢慢提高，工作效率递增，二者正相关；过了一个节点，物极必反，亢龙有悔，越紧张，越不出活，紧张变成焦虑了，与工作效率负相关。如果只把紧张度作为自变量放在回归模型中，会发现它与工作效率没有显著关系，因为正相关与负相关互相抵消了。下面这张图，像张发愁的脸。体现在回归系数上，原自变量的系数是正数，原自变量的平方的系数是负数，两个系数都显著。

第二，触底反弹，例如下图中年龄与所需关照的关系。新生儿需要很多关照，年龄渐长，需要的关照量递减，年龄与需要的关照量负相关；过了一个节点，需要的关照量与年俱增，年龄与需要的关照量正相关。如果只把年龄作为自变量放在回归模型中，会发现它与需要的关照量没有显著关系，因为正相关与负相关互相抵消了。下面这个图，像张微笑的脸。体现在回归系数上，原自变量的系数是负数，原自变量的平方的系数是正数，两个系数都显著。

第三，先扬后平。例如，每天用功学习的时间是成绩，大约是先扬后平。用功时间从0小时到8小时，与成绩显著正相关，8小时以上，用功时间与成绩就不再显著。体现在回归系数上，原自变量的系数是正数，显著；原自变量的平方的系数是负数，但不显著。

第四，先抑后平。例如，欠债的数量与心情的关系，据说是先抑后平。欠债从无到有，从少到多，在欠债量达到某个限度前，欠债越多，心情越压抑。过了某个限度，欠债量对心情的负影响就不再显著。有句俏皮话，“虱多不痒，债多不愁”，说的大概就是由抑转平后的境界。更健康的例子，是每天的减肥锻炼时间与身体中脂肪量的关系。体现在回归系数上，原自变量的系数是负数，显著；原自变量的平方的系数是正数，但不显著。

第二十三节为什么要加权

有两个术语，调查抽样效应（design effect）和抽样权重（sampling weight）。权重就是weight，重量。加权是weighting，是称重。称重可以增，可以减，不是“只加不减”。加权是为了让样本中每个人的分量相同，或代表力相同。举个加权的例子。抽样时，在10万人的A县随机抽到400人，B县20万人，也随机抽到400人。分析数据时，不能简单地把两个县的样本加在一起，变成一个800人样本。原因是，A县的400人比B县的400人分量要轻。A县的400人，每个人代表250人；B县的400人，每个人代表500人；B县样本中，一个人的分量是A县样本中一个人的分量的2倍。分析时，要给B县的人分量加倍。方法是在数据库中构建一个权重变量，A县的人，权重都是1，B县的人，权重都是2，做回归分析时，把权重纳入回归模型。这就是加权。

第二十四节为什么取收入的对数

取对数的功能是挤水分，比如，月收入从1000元涨到2000元的意义，大于从2000元涨到3000元的意义，如果多数人的月收入以千元计算，极少数人的收入以十万、百万、千万计算，取对数就可以把这些特别高的收入中的水分挤掉。不是说那些人的钱不是钱，而是说那些人的钱对他们的幸福度的贡献不像表面看来那么大。

给个人收入取对数，符合我们的直觉。收入低的时候，多一块钱是一块钱，收入越高，多一块钱的意义越小，对于超级富豪来说，多一块钱只是一个微不足道的数。对数的特点就是把很大的数变得很小。以10为底数，1的对数是0，10的对数是1，100的对数是2，1000的对数是3。看底数，从1变成了1000，看对数，只是从1变成了3。《西游记》中有句话，可以帮我们理解对数。“天上一日，地上一年。”一段时间，用地上的量纲（自然数）测量是一年，用天上的量纲（对数）测是一天。

第二十五节咬文嚼字是好习惯

我认为把variable译为“变项”比译为“变量”更好。有人说，如此咬文嚼字，类似孔乙己津津乐道于“茴”字有四种写法。我不这么认为。“变项”不是我的译法，我只是觉得这个译法更高明。“变项”指变化的东西，量化方法只是用数量测量和记录那“东西”的不同状况。把“variable”译成“变量”，让人觉得量化方法研究的对象就是“数量”。“变项”让人思考“变项之变”，“变量”让人专注于“量的变化”。做量化研究，最难回答的问题是“变项之变”，尤其是“因变量之变”，然而这个问题常被忽略。本书从俗，统一采用“变量”，但假定读者真懂这个词的含义。顺便说一句，不赞成咬文嚼字的人，往往用词含糊粗略。遇到“质化”“信度”“田野”等类似笑话的翻译，遇到“多谢聆听”“敬请期待”这样的怪诞说法，不会有足够的敏感。清楚理解variable的含义，才不必过分执着于如何翻译。

第二十六节统计上显著不等于实质上重要

有些不够严谨的学者有意无意地把“统计上显著”（statisticallysignificant）与“实质上重要”（substantively significant）混为一谈。在这些容易混淆的概念上是否严谨，是个可靠的标准，有助于判断貌似来头不小的“和尚”是不是真会念经。判断“统计上显著”的差异是否也“实质上重要”，要分析效应大小（effect size），这比较复杂，相当于解释回归系数的实质意义，需要考虑变量的测量单位。具体说，未标准化回归系数的绝对值取决于测量单位，如果测量单位细小，即使回归系数统计上高度显著，绝对值也会很细小。如果回归系数统计上显著，下一步是根据研究领域内的约定判断它是否实质上重要。显著度相同、标准值也相同的回归系数，按照社会学标准衡量，可能实质上无足轻重，然而，按照流行病学标准衡量，可能实质上关系重大。

第二十七节动态细读统计图表

看统计图表，不能俯视，不能指望一览无余。看表格，例如看交叉列表，可以专注最有趣的单元格。例如，用雇员数据的是否经理与是否少数族裔构建的二乘二表，最有趣的单元格是“既是少数族裔又是经理”，看看这个格子里应该有多少人，实际有多少人，就可以大致估计计算“预期值”时依据的零假设的可信度。

看图表，要看准维度，像欣赏绘画一样，动态地细读，要逐步走进画中。例如，看正态分布图，先做如下预热：选择以中间点0为起点，一个向度是z值或t值与0之间的距离，衡量距离的测量单位是标准差或标准误；另一个向度是概率，0的概率最大，离0越远，概率越小。准备好了，先从0开始，沿着横轴的标准差或标准误的值从左往右看，也就是标准差或标准误逐渐增大，同时瞄着竖轴看与标准差相应的概率，这时要从上往下看，也就是概率逐渐从大变小，看到三个或四个标准误，正态分布图的可见部分就看完了，然后想象那条看不见的渐近线。看完右边，再用同样的方式看左边。这样看几次，就能体会到，貌似静态的正态分布图其实是个动态的图。

第二十八节多层线性建模

多层线性建模（Hierarchical Linear Modeling）的主要用处是分析环境因素对个人属性的独立影响（净贡献），常见的是双层分析（two-levelanalysis），既看个人层面的自变量对个人层面后果变量（outcome variable）的影响，也看地区层面的变量如何通过影响个人层面的解释变量（predicator of interest）影响个人层面的后果变量。双层回归的经典例子是：学生的成绩不仅取决于学生的个人因素（包括家庭因素），还取决于所在班级或学校。双层回归建模允许我们以学生成绩为因变量时，先使用以学生个人为分析单位收集的个人层级的自变量，例如父母教育程度、年龄、性别、健康状况、个人用功度、家庭经济条件。然后，以班级或学校作为分析单位收集的二层自变量，例如主要任课教师的平均学历、教学经验或所在校区的经济社会指标，解释个人层级自变量不能解释的剩余误差平方和。使用双层模型需要构建双层数据，HLM（Hierarchial Linear Modeling）、R、Stata和Mplus都能做双层回归。

第二十九节动手用例子思考

理解抽象概念，最有效的方式是“用例子思考”（think with examples）。《戏说》讨论正态分布的三个版本，讲到抽样分布，就是动手思考的例子。抽一百个样本，需要很大的耐心。耐心不够，抽几个，有点体会，就有奇效；真抽一百个，有神效。不肯动手，是对自己的思维能力和想象力高度自信，但也冒了盲目自信的风险。我教统计十几年，觉得真懂抽样分布的学生并不多，原因是肯下笨功夫的学生终归是少数。

用概念思考是理想，但需要天才。不少年轻人自信满满，仿佛单凭脑子思考就能想出博士论文，多数情况下是不自量力。欧拉、爱因斯坦、霍金，都是天才，他们能完全凭脑筋想问题。欧拉晚年失明，明眼的学生用笔算不对，他凭心算能算对。霍金得了运动神经元疾病，身体不能动，但他思考宇宙问题，比如神秘的黑洞问题，想得比绝大多数能跑能跳的人清楚。爱因斯坦做思想实验，因为他思考的是空间与时间问题，没有办法做实验。我讲课时经常举鲁迅先生打腹稿的故事。这些伟大人物是大天才，我们可以站在远远的地方仰视他们，但不能效法他们。他们动脑子凭概念就能想清楚极为深奥的问题，我们只能指望动手用例子想清楚相当简单的问题。这是现实，不能不承认，不能不面对。用例子思考，动手思考，是中人之材能够达到的现实。我讲论文写作，强调一定要动手写，动手改，道理是相同的。

本书有两个动手用例子思考的例子。第一章，理解样本量与置信区间的信心度的关系，置信区间信心度与宽度的关系，对我来说最直观有效的方法就是动手思考。第四章，定序回归的难点之一是，变量之变是累积概率之变，累积概率之变又被表达为累积发生比之变，累积发生比之变又被表达为累积发生比之自然对数之变。我数学不好，无法凭心算理解这些数学转变，只能动手思考。用一个计算器，根据一个真实的数据，一一计算累积概率，然后计算相应的累积发生比，再计算累积发生比的自然对数。明白了定序回归中因变量之变的含义，解释回归系数时，心里就有底了，这时就不必再去费心琢磨怎样动手思考，只要借助专家提供的利器，把回归系数代表的因变量发生比之自然对数的变化先还原成发生比的变化，再还原成概率的变化。

第三十节万法归一

大千世界万象归一，认识世界万法归一。社会科学以个人与组织为研究对象，研究方法异曲同工。量化方法是精巧的思维方式，定性研究则更有艺术性，有更大的想象和创造空间。逻辑是对思维的思维，哲学是爱智慧，但归根结底是为了认识人。王佐良先生翻译的培根《论读书》，是神品，其中有句话：“读史使人明智，读诗使人灵秀，数学使人周密，科学使人深刻，伦理学使人庄重，逻辑修辞之学使人善辩：凡有所学，皆成性格。”

定性方法与定量方法都是方法，万法归一。方法论的各种区格，反映的是学者个人能力与眼界的局限，与世界无关，与社会科学无关。以自己碰巧会的一点把戏为社会科学研究的“九阴真经”，不仅可笑，亦复可怜。有自尊的学者，在方法论上一定持开放态度。承认自己的局限，才有希望超越局限。唯我独尊，无非意味着不敢承认自己的局限，心甘情愿把自己变成局限的奴隶。比如，有人认为他是定量研究大师，除了定量方法，他都看不起。其一，他是把自己当成了定量方法的大神，实际上他可能只是个小鬼。其二，他把自己变成了定量方法的奴隶，这倒不折不扣。

我讲研究方法，每次都推荐启功先生的《启功给你讲书法》，因为启功老先生特别擅长破除迷信。不破除方法论迷信，就会成为方法论的奴隶。不少同学被各种各样的方法论吓住了。定性方法一大堆，定量方法又是一大堆，博弈论等等又是一大堆。这么多方法，不可能都学会。关键是我们需要懂多少。无论我们会什么方法，只要我们把一种方法想透了，再理解其他方法就不难，触类旁通。当然，触类旁通，不像捅窗户纸那么容易，更像是学好母语，再学外语，或者先学好英语，再学德语或法语。研究方法之间无疑有隔阂，但隔阂不是铜墙铁壁，因为背后都是思维。数学学精了，数学就成为你最擅长的语言。哲学学通了，哲学就是你最得心应手的语言。文学能力强，可以用形象的比喻思考。擅长逻辑，就用符号思考。做研究，关键是有探索的兴趣，有独出心裁的想法。

第三十一节学量化方法是为了建立概率思维

散乱的、碎片化的知识，没有用，把它们融入自己的思维方式才有用。思维方式可以是自觉的，也可以是半自觉甚至不自觉的，即下意识的。使用一个工具，时刻意识到它的存在，对这个工具的掌握就没到家。弹钢琴，时刻意识到钢琴的存在，意识到琴键的存在，弹钢琴时就不是完全表达对音乐的理解。厨师有刀工，就是用刀的时候不觉得是在用刀，觉得是用手，甚至只是用脑，才是得心应手。学统计分析也一样，统计分析有很多概念，很多技术，学习过程需要抓住关键概念，比如概率、正态分布、显著、发生比的对数，完全理解这些概念，记住它们，从掌握点滴的知识到慢慢把点滴知识变成一个系统，形成一个视角，形成概率思维方式。

形成概率思维不是很容易，与阅历和成熟度有关。数学优秀的高中生，可能无法理解简单的概率问题或统计概念，不是他们不够聪明，而是他们不够成熟。他们习惯于以精密的、确定的方式看世界，是非分明，黑白分明。从确定的世界观看，犯一类错误的概率是5%，犯二类错误的概率肯定是95%。但世界不是这样确定无疑的，在概率世界里，概率不能小到0，也不能大到100%。从青少年非此即彼的思维方式，到成年人的概率思维方式，也就是习惯于认为只能计算犯一类错误的概率。接受二类错误概率无法计算这个事实，是一个重要转折。现实的不是必然的，可能的不必然发生，发生的不必然发生，未发生的不是不可能发生。

第三十二节善于跟网上的老师学习

衡量统计知识基础是否已经够牢固，标准是会不会在互联网上寻找自己需要的答案，寻找有用的技术知识。在网上输入关键词和想问的问题，在下载的文件中输入关键词，能找到所需要的答案，就是会自学了。善于向网络上做义工的专家学习，善于利用网上的优质自学资源，既有效，又经济。

第三十三节量化方法是一种“语言游戏”

维特根斯坦是20世纪的大哲学家。像柏拉图一样，他一生创建了两个表面不相容的哲学体系。年轻时，他强调语言是世界的逻辑图画，追求语言意义的清晰明白。后半生，他认识到语言是人的生活与其他实践的工具，科学研究是人的实践的一部分。他的早期哲学与晚期哲学各有价值，不是相互替代，而是相互补充。如果说维特根斯坦早期哲学的关键词是逻辑，那么后期哲学的关键词是游戏。

游戏，德语是Spiel，英译是game。维特根斯坦后期哲学的关键词Sprachspiel，英译是language game，汉译是语言游戏。可惜，“游戏”这个词在汉语中太轻飘，不能完整反映原文的意思。最能说明问题的，就是我们不把“Olympic Games”译成“奥林匹克游戏”。在德语原文中，Sprachspiel指的是人类全部过程中的所有语言表达，涵括简单的感叹词、严谨的科学论文、丰富多彩的文学作品、复杂的哲学论著。人类的知识分门别类，相应的语言实践随之分门别类，形成不同的“语言游戏”，各有各的词汇，亦即术语，各有各的规则，亦即语言规范。

量化方法也是个语言游戏。我们小时学游戏，都是在看游戏、做游戏的过程中学会的，不是靠熟读、熟记游戏规则学会的。学量化方法，最有效的方法也是通过看游戏、玩游戏学。用学游戏的态度学量化方法，有三个要点。首先，要有游戏心态。对西装革履的统计专著，尤其是货真价实的名著，我们当然要毕恭毕敬，但内心一定要清楚，那些大部头相当于NBA裁判必须掌握的篮球规则全书，相当于法官必须熟悉的法典。我们的角色更接近球员，更接近执业律师。这个角色定位要清晰，否则无法获得必要的轻松心态，对待游戏规则过分认真，就无法去玩游戏了。

其次，要入戏。玩游戏，有各种境界。马马虎虎地玩，不管玩多久，都只能玩得马马虎虎。好例子是苏东坡下围棋，他的心态是“胜固欣然，败亦可喜”，所以他的围棋水平肯定高不了。学量化方法，目标是成为专业玩家，需要入戏。要入戏，最有效的途径是找到好游戏，也就是找到一个自己真有兴趣分析的数据，然后在数据中找到自己真有兴趣的因变量。找到了，就抓住了牛鼻子，纲举目张，顺藤摸瓜，就入戏了。雇员数据是很简单的数据，但可以做出很多好玩的游戏，关键就看是否入戏。自己创作游戏，自己玩自创的游戏，是有效的学习方法。我写《戏说》与《续编》，都努力把自己设计的智力游戏写清楚。

最后，如果只是把量化方法当成研究工具，要知所进退，及时跳出游戏，不要偏离自己的研究课题。不入戏，学不会；入戏太深，会痴迷。围棋的绰号是“木狐狸”，量化方法有点像“数字狐狸”，都能让人着迷。可是，如果没有天赋棋才，没有明师指点，不管多么痴迷，棋迷终究只是棋迷，可以靠教棋谋生，不能靠下棋谋生。同样，如果没有数学天赋，不管多么痴迷量化方法，还是很难成为量化方法的专家。幸运的是，靠量化方法谋生，并不艰难，可以当研究助理，可以教量化方法，可以提供量化技术咨询，都是光荣的职业。