分享

倾向得分法的规范步骤和估计方法等汇总

 张春强2022 2018-03-22

本文由计量经济学服务中心综合整理自:《倾向得分匹配法的研究探索及应用

作者:周 珺 


一、倾向得分的概念



Rosebaum和 Rubin首次提出倾向得分法是在 1983 年 ,并定义倾向得分法为: “个体在其特定的属性下接受某种干预的可能性。”倾向得分法制造了一个“准 随机”试验,在试验中,只需有两个倾向得分相同的试验对象,其中一个在处 理组,而另一个在对照组,我们就可以认为处理可能性相同的两个试验对象被 随机地分到了处理组与对照组。


倾向得分是所有协变量的一个函数。它将多 个协变量变成一个变量,实质就是“ 降维” 。倾向得分的主要用途是来均衡处理组 与对照组之间的协变量分布,对非随机化研究中的混杂因素进行类似随机化的均衡处理,其目的是减少选择性偏倚。它的基本思想是找到一群与处理组在所 有相关的预处理特征类似的控制组,足够的与处理组比较的对照组产生的不同结果就可以归因于该项目。



二、研究现状



20 世 纪 9 0 年 代,倾向得分法已经成为了一种流行的方法来估计因果的处理 效果,倾向得分法将被广泛用于统计分析,特别是在应用医学领域。因为随机 实验的花费上涨,更多的研究者转向了做花费较少的观察性研究。通过匹配法 或分层法并入倾向得分的阶段是在研究的设计阶段,这能够避免选择不适应特 殊研究的个体进入到实验中,从而使倾向得分理论产生的效益最大,即在节约 时间和金钱的同时能提供更精确的真实处理效应的估计。我们主张不是在观察 性研究中只采用倾向得分,而是希望研究者在选择除传统的分析方法外能够运 用倾向得分法。倾向得分应被当做是研究者在研究中估计处理效应时的一种可 用的额外工具。



国际上许多领域的观察性研究中早已开始使用倾向得分法来降低选择性偏倚。在统计杂志或医学杂志的文献上,都已经有很好的例子来讨论倾向得分法。这些文章讨论的涵盖了流行病学,卫生服务研究,和社会科学经济学等领域。倾向得分法已被运用到评估劳动力市场的政策,Dehejia 等{ 1999) [20] ,实证的例 子能够在其他不同领域研究中被找到。Perkins 等(2 000) 研究了将匹配的药物 进行流行病学的分析;和 Frei(2002) 分析了网上银行客户的盈利能力;Bryson (2 002)分析了员工如果成为工会成员对其薪酬是否有影响;K im 和 Davies(2 003)通过比较被美国的一家交易所列出的加拿大公司的买卖差价百分比;H am 等 (2 004)研究的跳槽对年轻男子工资增长的影响; Halaby 和 Brand(2 006)分析了影响职业的精英大学入学率的结果;每一个微型计量经济学的评估研究必 须克服根本评价问题和处理可能出现的选择性偏倚。


虽然在国外倾向得分法的应用已非常广泛,被应用到各个领域的研究中, 但倾向得分法在国内还处于刚起步阶段,关于倾向得分法的研究成果目前还比 较少,赵守军( 2003)等 采用倾向得分法来比较平衡两组间差异的变化情况,评价 放弃心肺复苏急救与充血性心力衰竭患者院内死亡的联系, 并认为倾向得分法能 有效地均衡组间差异,起到匹配和平衡各个特征变量的作用,并适合用于分析 各种观察性研究; 汪涛( 2004)等 将倾向得分法应用于一项评价某降血脂新药效果 的 4 期 临床试验数据后认为对于非随机化医学的研究,结合倾向指数进行非参 数生存分析是一种可选择的比较新的统计方法; 高建民和陈钢( 2007)采 用陕西省 2005 年 度的的 2 个 试点乡镇随访家庭入户调查资料,运用倾向得分匹配法对互 助医疗改善卫生服务实现的可及性进行效果评价;陈玉萍等(2 010) 运用倾向 得分匹配法分析了滇西南农户采用改良的陆稻技术对农户收入的影响  。



三、研究步骤



倾向得分法的应用主要有以下 7 个 步骤: 


(1 )准备数据。对数据进行质量审核,鉴别数据类型,考察数据的完整性 及逻辑性,根据数据类型和大小来选择相应的分析方法。 


(2 )选择协变量。针对试验目的,根据研究者的经验及倾向得分法变量的 选择要求,选择合适的混杂因素。然后将混杂因素作为自变量,处理因素作为 因变量进行模型的构建。从模型中获得倾向得分的估计值,这里可选的模型包括判别分析,Logistic 回归和 Probit 回归,本文之后应用的是 Probit 回归。 Probit 回归模型和 L ogistic 回归模型相同,是定性回归模型的一种,都可用来处理二分 变量的回归问题。


(3 )计算倾向得分。根据选定的模型计算每一个试验对象的倾向得分,值 在 0 至 1 之 间,表示试验对象被分配到试验组或对照组的概率。 


(4 )选择应用方法。根据计算出来的倾向得分,选择合适的倾向得分应用 方法。常用的倾向得分法有:倾向得分匹配法(p ropensity score matching)、倾 向得分加权法(p ropensity score weighting)、倾向得分分层法( propensity score stratification )和 倾向得分协变量调整法(p ropensity score covariate adjustment) [8] 。


 (5 )评价均衡性。应用倾向得分法前后需评价组间的均衡性好坏,协变量 的均衡性好坏是衡量倾向得分法的关键。一般用来评价均衡性的好坏的方法是 假设检验,标准化差异是 F lury 和 Reudwyl(1 986) 提出的一种全新的评价均衡 性的方法。


(6 )估计处理效应。对匹配后的数据集选择恰当的分析方法来估计处理效 应。因匹配后的处理组和对照组之间的协变量已达到均衡,此时数据可被当做 是近似随机化的,假如选择的统计分析方法是合适的就可得到真实可靠的处理 效应。 


(7)分析敏感性。在一次试验中,好的匹配方法产生不完整的匹配集是无 法避免的,这种匹配的不精确性是很难消除的。所以,如何在匹配精度与完整 度之间进行选择还有待探讨。用比较数据集在匹配前后的精确度与完整度是评 价不同的匹配算法的优势是十分重要的。



四、倾向得分的估计方法



估计倾向得分的方法有许多种,其目的是用一个倾向得分来表示试验对象可观测到的、影响处理因素的众多协变量,然后调整试验个体倾向得分来估计处理效应。几种常见的估计倾向得分方法:


4.1 广义线性模型


广义线性模型的思想:假如对应变量作适当的变量变换可满足或近似满足 线性模型分析的要求,能够借助线性模型的分析思路解决模型构造、参数估计 和模型评价等一系列问题 。广义线性模型包括 logistic 回归模型、非参数回归、 Probit 模 型、广义可加模型等,均可被用来估计倾向得分。其中 l ogistic 回归模 型是最常用也是最简单的模型,在已发表的倾向得分相关文献中,多数采用 logistic 回归模型来估计倾向得分,因为它要求因变量服从正态分布,对自变量 的类型也无要求,均可引入 l ogistic 回归模型中。但在计量经济学中,更多使用 依赖于正态理论的 P robit 模型。 


4.2 判别分析


判别分析,是在已经明确分类的前提下,根据某一研究对象它的各种特征 值来判别其应归属于哪一类的一种多变量统计分析方法,其基本原理是按照判 别准则,通过建立一个或多个判别函数,使用研究对象的大量资料从而确定判 别函数中需待定的系数,并计算判别指标  。据此即可确定某一样本属于何类。 常用的判别分析有逐步判别分析、距离判别分析、Bayes 判别分析、 Fisher 判别 分析等。在非随机化研究倾向得分计算中,判别分析也比较常用,但是它要求 观察到的协变量须服从多元正态分布,这样分配出来的试验组和对照组在某种 意义上来说,均衡了组间的协变量,可以获得平均处理效应的无偏估计。 


4.3 COX 比例风险模型


COX比 例风险模型是建立风险函数与观察协变量之间的一种回归关系,主要 应用在生存资料的统计分析研究中,它是把风险函数构造成观察到的协变量的 对数线性函数。 COX比 例风险模型能估计试验对象生存状态的风险率。如果 将这种表示试验对象生存状态风险率作为倾向得分,则可以根据倾向得分的研究方法对试验进行匹配处理,然后通过统计分析获得处理效应的估计。如果一 个试验满足以下两个基本特征,则可以采用C OX比 例风险模型来估计倾向得分。 


(1 )该试验数据为生存分析数据;


(2 )影响死亡风险的协变量是可观察的。如 果生存数据中存在时间依赖的结果变量或者协变量,此时,采用倾向得分的方 法要特别小心。


4.4 神经网络技术


神经网络技术是一种比较新的方法,它是一种模仿动物神经网络行为特征, 进行分布式并行信息处理的算法数学模型。神经网络由输入层、中间层和输出 层组成;每一层都包含一组结点,这些结点与下一层的各个结点进行直接关联。 作为一种估计倾向得分的工具神经网络技术已经被认可,并与 l ogistic 回归模型 进行比较,显示出其具有实用性。与 logistic 回归模型相比,其明显的两个优势: 其一,它能处理高维度的数据,虽然每一组数据仅有可能对分类结果产生微小 影响,据此进行微小的调整就能得到更精确的分组;其二,不论多项式有多么 的复杂,亦能够找到足够复杂的用来拟合的神经网络来 [12] 。而采用 l ogistic 回 归 模型估计倾向得分时,研究者需事先考虑到模型中包含哪些高次项和交互作用效应。



五、倾向得分的应用方法



1、倾向得分匹配法 


在倾向得分各种方法中,被广泛应用的是倾向得分匹配法。从控制组中选 出与处理组各特征相近的研究对象进行配对是传统的匹配方法,是为了排除匹 配因素的干扰。传统的匹配方法只能针对某个或某几个变量进行配对,并不适 用于变量较多的情况。


最简单的匹配是最近邻( Nearest neighbour )匹配法。从对照组中挑选一个倾向 得分最符合处理组的某个试验对象。之后,按照倾向评分值大小把两组观察对 象进行排序, 从 处理组中顺次选出个研究对象, 从 对照组中找寻倾向评分值与 处理组对象最接近的 1 个 对象作为配比个体。假如对照组中倾向得分差值相同的个体有 2 个 或 2 个 以上, 就 按随机的原则选择。将配比成功的对象自源人群中 除掉, 接 着进入到下一个处理对象的配比过程, 处理组中的所有对象都完成匹配 才结束。配比时一般应规定配比精度, 如倾向评分值相差< 0.01="" 或="">< 0.001。="" 假如="" 研究者想对某个重要变量精确匹配,="" 就="" 可以先根据该变量分层后,="" 分="" 别对每层="" 人群进行单纯倾向得分配比。之后将配比人群进行合并,="" 两组研究人群中这个变="" 量分布完全相同即可结束。这个方法确保这个变量精确匹配,="" 然而精确匹配因素="" 及其因素水平比较少,="" 而="" 且样本量必须足够大。还有几个变形的最近邻匹配:最近邻匹配的“替代”法和“无替代”法。在前者的情况下,未处理的个人可以="" 使用一次以上作为一个匹配,而在后者的情况下,它被认为是只有一次。搭配="" 更换,涉及的偏差和方差之间的权衡。假如我们允许替换,平均质量的匹配将="" 增加,会减少选择性偏倚。倾向得分分布是十分不同的,在对照组和处理组的="">


马氏距离匹配法是另一种常用的匹配方法,通过马氏距离评价研究对象特 征相近的程度,即计算处理组和控制组研究对象的马氏距离,并对马氏距离最 小的两个研究对象进行配对,直到与处理组所有的研究对象配对完成。马氏距 离排除了变量间相关性的干扰,消除了量纲的影响,但也不适用于协变量较多 的情况 。而倾向得分可以综合表示多个协变量的共同作用,不受协变量数目 的限制。倾向得分匹配是在通过模型计算倾向得分后,从对照组中选出与处理 组倾向得分相等或相近的研究对象进行配对,直到所有符合匹配规则的处理组 研究对象配对完毕,视为匹配完成,来达到均衡组间的协变量分布的目的  。


匹配的算法可分为两种:局部最优匹配法好全局最优匹配法。局部最优匹 配法是指对处理组研究对象进行随机排序后,从处理组的第一个研究对象开始, 在对照组中查找倾向得分与其最接近的研究对象,直到处理组所有研究对象都 形成配对,它的优点在于匹配集的最大化,最大程度地保留了原始样本的信息全 局最优匹配法是把匹配问题转化为运筹学中网络流问题,把处理组和对照组的 研究对象看作节点,把匹配转化为求节点间的总距离的最小化问题,不保证处 理组的每个研究对象都能找到最优的匹配,也就是说,处理组与对照组间匹配 的两个研究对象倾向得分的差值可能并不是最小的,但是能保证匹配数据集倾向得分总体差值的最小化,这个优势是局部最优匹配法无法比拟的,但是数据 海量时,该方法需要建立巨大的距离矩阵,影响执行效率,所以在实际应用中 并不多见 。


卡钳匹配(caliper matching)是事先设定处理组与控制组的研究对象倾向得 分的差值在某范围内才能进行匹配的方法 [2] ,卡钳值就是事先设定的这个范围, 卡钳设置越小,匹配之后的样本均衡性会越好,但是会造成匹配集样本量会变 小,从而降低估计处理效应的准确性;反之,卡钳值越大,能完成匹配的个体 就越多,从而匹配集样本量就越大,但同时也会产生一些部分不良匹配,即倾 向得分差值较大的对照组与处理组研究对象形成匹配,导致估计处理效应的偏 倚增大。卡钳值的设定目前还没有统一的标准,在实际研究中,研究者选用了 不同的卡钳值进行分析。卡钳匹配是倾向得分的医学研究中最为常见的匹配方 法。卡钳的设定会影响匹配集的样本量,卡钳值越大,能够完成匹配的个体越 多,匹配集样本量就越大,但是可能会产生一些不良匹配,也就是倾向得分差 值较大的处理组和对照组研究对象形成匹配,会增大估计处理效应的偏倚;反 之,卡钳设置过小,匹配后的样本均衡性会更好,但是匹配集样本量会变小, 降低估计处理效应的准确性。卡钳的设定一直没有一个统一的标准。在实际研 究中,研究者选用了不同的卡值,如 M urray 等在有关疗养院入院者的康复治疗 研究中,卡钳值选用的是 0.2;S eeger 等在关于急性心肌梗塞的队列研究中,卡 钳值选用的是 0.01;C hristakis 等有关于健康保健的研究中,卡钳值选用的是 0.005。C ochran 和 Rubin 研究证明,卡钳值取倾向得分标准差的 60%可以减少 86%~91%的偏倚,取倾向得分标准差的 20%可以减少 98%~99%的偏倚。A ustin 等 总结了以往两分组资料中倾向得分匹配法研究用到的 8 种卡钳值,比较这些卡 钳值在估计处理效应时的精度和偏度,模拟结果提示最优卡钳值是 0.02、0.03 或者是倾向得分经过 l ogit 变换后标准差的 20% [20] 。 局部最优匹配法还存在是否允许放回的问题。所谓允许放回,指在匹配过 程中允许重复利用研究对象,即配对后的研究对象允许参加下一个配对。允许 放回使匹配数据集在局部最优匹配法的条件下,组间倾向得分差异总体上达到 最小化。


◆◆◆◆

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多