什么是好的研究假设(Hypothesis)？--顺谈与自变量、因变量的关系

徒步者的收藏 2018-07-16

展开全文

社会科学研究中有一个特别有趣的东西，叫“研究假设” （hypothesis），这个东西特别重要，它连接了理论和数据，是贯穿一篇文章的黄金线。读一篇实证文章的时候，哪怕什么都没看懂，也要把研究假设看懂了，看懂了研究假设也就明白了这篇文章主要是要干嘛。所以我们今天系统的来说说研究假设，以及与其紧密相关的自变量、因变量。本篇文章会讨论到：

为什么要有“研究假设“这个东西？
什么是好的研究假设？
自变量、因变量，以及与研究假设的关系是什么？

【节目预告】由于写着写着发现还没有仔细讲过variable和value, 所以在本篇留一个尾巴到下一篇，届时我们会继续聊这些：

写研究假设时初学者可用的两个模板
你必须知道的Variable 和 value 之间的关系
Levels of Measurement以及几种不同的变量：nominal, ordinal, interval, 以及 ratio variable.

为什么要有“研究假设“这个东西？

我们在为什么要有社会科学研究方法？一文中就说过其实搞研究没有什么可神秘的，本质上，研究就是在探寻对一个问题的答案；然而科学研究又与普通人日常生活中寻求答案不同，因为它严谨、科学、系统、严密、一丝不苟。

如果说人类知识分等级，那么科研者就像是站在金字塔的塔尖。为金字塔最下面站岗的知识服务商可以说错甚至胡说，因为有金字塔中间的人在把关；金字塔中间的人也可以时不时犯错，因为有金字塔顶端的科研人员把关；而科研人员就不能再错了，顶端的搞研究的人都错了，底下的就全错了，人类知识航行的方向也就堪忧。

所以，为了尽力让研究结果不出现丝毫的错误（请注意只是尽力，不是说一定完全没错误），科研人员有时候必须神经兮兮、矫枉过正、一丝不苟、甚至看上去有点迫害妄想症地去对待每一个对问题的探寻，因为别人在问问题和给答案的时候可以不在意可以不负责任，而研究人员是代表人类知识的最前沿在探究答案啊，她/他不可以随意和不负责任。这就是为什么我们在初接触研究方法上的一些名称和词汇时，有时候会觉得莫名其妙或是多此一举，也是为什么很多人会觉得搞科研的人特别“nerd”-----大哥大姐们，不nerd做不好学术啊，不神经兮兮就难以守护人类知识的金字塔啊！（两眼泪汪汪）

但是，一旦你开始细细了解，你会发现很多学术范畴内看上去有点莫名其妙的词汇或称谓其实离我们一点都不远。就拿“研究假设”这个东西来说-----研究假设离我们远吗？我们普通人如果不做学术就从来不会用到吗？其实恰恰相反，我们普通人问问题和给答案的时候也总是给出“假设”，我们甚至在日常聊天的时候都一直在给假设，比如下面这个例子：

小白：小芳，我这两天怎么总觉得头疼？
小芳：我觉得你最近喝咖啡有点多，会不会跟喝咖啡有关？
小白：有可能。
小芳：要不然就是熬夜熬的，你最近赶那个项目天天凌晨两点才睡，能不头疼么？
小白：好吧，这两天早点睡试试。

喏，这个对话，小白提出了一个问题“为什么我总头疼？”，小芳于是信手拈来给了两个假设：

假设1：喝咖啡喝的越多，小白的头越疼。
假设2：睡觉睡得越晚，小白的头越疼。

当然，我们平常可能会把这种回答叫做“猜测”而不叫“假设”。但是其实这就是研究假设的本质：一种对于某个问题答案的未经证实的猜测。

其实这世界上所有对答案的探索过程都一定要经过“假设”这个过程，当我们给出的某个答案还未经证实，那不就是一种“假设”吗？只不过有很多时候这个假设的过程是隐性的、短暂的、无需被单独列出的、或者不被人意识到的。

而科学研究不同了。科学研究里面，你需要严谨和明确的把你要研究的东西明晃晃的亮出来，你需要清清楚楚的分清什么是fact（事实）什么是opinion (观念），什么是hypothesis（假设）什么是tested finding （经证实的发现）, 为此你需要把你的研究假设一是一二是二的写出来在文章里，而且你需要尽量表达到位、用词准确，因为只有这样别人才能知道你后续验证数据的过程做的有没有道理、所设计的方法合不合适、分析结果能不能验证你的假设。所以在实证研究中，我们也就看见了“Hypothesis 1..”, “Hypothesis 2…” 这样的专属于学术研究的东西。

总体上来说，我们在实证研究中一定要亮出研究假设是为了以下几个目的：

告诉别人你这篇文章要关注的主题是什么（比如，” 喝咖啡喝的越多，小白的头越疼” 这个假设能清楚的告诉别人我要关注的是“为什么小白头疼”）；
告诉别人你有一些别人没想到的能解释这个问题的想法或“变量”（比如“喝咖啡”和“睡得晚”就是解释变量）；
告诉别人你在研究中关注的自变量和因变量分别是什么；
告诉别人假设自变量和因变量两者是怎样的关系（比如正相关、负相关、非线性相关等等）。

所以研究假设这个东西看上去就那么一两句话，但是作用其实特别大。这也是为什么我们说看实证文章一定要看懂研究假设的原因。研究假设看懂了，一篇实证文章也就看懂了一半。

什么是好的研究假设？

好了，接下来我们可以来看一个严肃一点儿的对Hypothesis的定义：

“A hypothesis is a testable statement of the proposed relationship between the independent variable, which measures the cause, and the dependent variable, which measures the effect. “ （Pollock, 2015）

就是说，一个研究假设它一定是提出了一个可验证的关系的假设，这个关系里包含一个自变量和一个因变量，这个研究假设需要提出了一个自变量是如何解释该因变量的。

仔细看这个定义我们能看出这么几层意思：

只讨论了一个变量的假设并不是研究假设。比如，“明天天气会变暖”---这里面只有一个变量，就是“天气”，它没有提出两个变量之间的关系，变暖这个事情是天气的特征值(value)，而不是variable;
研究假设里面要提出自变量和因变量的关系，将自变量和因变量进行“联结”。比如，“明天天气会变暖，明天湿度会特别大”----这里面确实出现了两个变量，然而并没有联结二者的关系，没有用自变量去解释因变量，所以也不是好的研究假设；
好的研究假设里不能只说两个东西相关，还要说他们是怎么相关的。-----比如随着一个变量的增长另一个也增长，这叫正相关；随着一个增长另一个下降，这叫负相关。
研究假设必须可以验证。比如，“喝咖啡越多头越疼”就可以验证；“喝咖啡越多人就越通灵”就无法验证（至少现在科学界无法验证）。

研究假设的核心是解释“自变量与因变量的关系”

接下来我们再来好好说说IV 和DV这两个重量级大咖。这个部分的大体内容其实我们在把实证文章从厚读薄的本领----变量梳理法中有所涉及（建议结合两篇文章一起看），但这里我想再花点篇幅重新细致的说一说，谁让重要的事情都得说三遍，而这俩家伙在定量研究中简直是重中之重。

这里我请大家先从英文名字上来理解一下它们俩到底是干嘛的：

Independent Variable : variable是变量的意思，independent是不依赖的意思，所以independent variable就是谁都不依赖的变量----我自己变我自己的，不管别人变不变，其它变量决定不了我（很任性的）----中文就叫“自变量”了, 其实直译过来就是“不依赖别人的变量”
Dependent Variable: 再次顾名思义，它需要依赖，需要依赖什么呢？依赖其它变量来变化，否则它自己不知道该怎么变。那具体依赖谁呢？依赖“independent variable”的变化。Independent variable一变，dependent variable一定跟着变，因为它天生就需要依赖才能存在啊。----中文里把它叫做了“因变量”，因着别的变量才知道自己是怎么变，然而英文名直译过来它应该叫“依赖别人的变量”吧?（没让我去做翻译是有道理的系不系...）

【下文中为了书写方便，我会用IV（Independent Variable)代表自变量，DV(Dependent Variable) 代表因变量。】

在一个定量研究中，研究者核心的任务就是把至少一对儿“不依赖别人的变量”(IV) 和”依赖别人的变量” (DV )组合在一起，并且说明好它们之间的关系。而研究假设，也就是提炼后的、精确地描述这对儿IV-DV的未经检验的关系的陈述。

当IV和DV放在一起的时候， DV（因变量）是这个研究中被我们解释、被关注、被预测的东西，所以也它叫做“结果变量”(Outcome Variable)；而IV则是导致了DV、能够解释DV、以及能够用来预测DV的东西，所以也叫“预测变量”或“解释变量”(Predictor Variable/ Explanatory Variable).

所以，一个更简单的对hypothesis的定义是：

“Hypothesis is a testable statement about the empirical relationship between cause (IV) and effect (DV). ”

在验证两个变量之间关系的时候，研究者总是试图通过改变和调试自变量(IV)，来观测因变量(DV)的变化-----因为如果因变量随着自变量的变化而变化，那么就说明两者是相关的；至于是如何相关的，则需要进一步利用不同的统计模型来做出判断。

换句话来说：

In experiments, the IV is the variable that is controlled and manipulated by the experimenter;
whereas the DV is not manipulated, instead the DV is observed or measured for variation as a presumed result of the variation in the IV.

下图展示了研究假设中IV和DV的关系：

你可能会说，那有些东西不是由单独一个东西影响和决定的, 而是由多个东西决定的啊，比如人的学习成绩，由智商、情商、用功程度、学科基础、老师好坏等一系列因素组成，这怎么算？

那就是说学习成绩这个DV由很多个IV来解释，比如下图:

而在一个研究里，通常是不需要讨论到所有能够解释DV的IV的。（大多数的定量研究都是IV heavy型-----就是说我的研究的主要贡献在于我提出了一个前人可能没有注意到的IV，我如果把这个IV和这个因变量之间的关系证明好，我的文章就是有贡献的; 而另一类定量研究是DV heavy 型---这一类研究关注寻求某个DV（因变量）的完整解释模型，这就需要你尽量列出全部能够解释该DV的自变量。Again, 我们通常做的大多数研究是IV heavy型。）

当我们写研究假设的时候，还应该注意到，每一个研究假设应该只讨论一对关系------也就是列出一个IV和一个DV之间的关系。如果你在一个研究中准备探讨多个IV与DV的关系，那么你应该把每一对关系都分别列在一个单独的研究假设里，而不是把它们都列在一起。

OK，说到这里，什么是好的研究假设就基本说完了。下面我们针对IV和DV这两位大咖做一个练习。

【自助练习题：请用类似上图的箭头和长方形方框画出下面研究假设中每一对IV和DV之间的关系图, IV在左，DV在右，箭头从IV指向DV】

假设1：咖啡喝的越多，人越容易头痛。
假设2：晴天的交通事故率小于阴天的交通事故率。
假设3：总是吃垃圾食品的人，更容易得心血管疾病。
假设4：学历越高的人，玩电子游戏的能力越差。

--------------------------------------

以下是参考答案：

你可能已经发现了，一个好的研究假设不见得是一个正确的研究假设，也就是说研究假设还没有验证（否则就不叫假设了），所以可能是对的也可能是错的，这要由数据来说话。数据结果如果没证实你的研究假设或者跟你假设的关系方向相反，也不代表你的研究就没有意义了。但是研究假设一定要可以验证，一定要说清楚了IV和DV的关系，论文中的研究假设当然还要make sense, 有理论支撑。

关于研究假设还有两个写假设的初学者模板没有讲，留待下篇。总结一下，这篇文章我们说明了什么是好的研究假设, 以及研究假设与自变量、因变量之间的关系。一个好的研究假设应该做到：