分享

MDR的进阶版本-GMDR

 生信修炼手册 2019-12-24

MDR多因子降维法作为逻辑回归的一种补充,有效克服了逻辑回归在处理高阶稀疏数据时的局限性,广泛应用于分析基因-基因,基因-环境之间的相互作用,但是该方法存在一些局限性

  1. 和逻辑回归一样,该方法仅适用于二分类因变量的分析,比如case/control的实验设计,对于连续型因变量无法处理

  2. 和逻辑回归不同,逻辑回归可以进行协变量的校正,而该方法不可以

为了克服上述两个问题,增加MDR方法的适用性,科学家们在MDR核心思想的基础上进行了扩展,引入了score statistic的概念,提出了GMDR的方法,原理示意如下


MDR算法的核心是统计不同因子组合对应的频数,对应第三步中的单元格内的频数,然后用该频数的比值进行降维,并进行分类准确性和预测错误率的分析,从而挑选佳的模型。

GMDR仍然沿用了相同的算法框架,只不过将频数改为了打分,关于其打分系统的详细介绍参见下面这篇文章

https://www./action/showPdf?pii=S0002-9297(07)61030-161030-1)

然后根据该打分值来进行后续的降维,分类准确性,预测错误率等分析。在文章中也比较了MDR和GMDR的分析结果,结果如下

可以看到,MDR和GMDR结果的一致性非常高,而同样的因子组合,GMDR的预测准确率和交叉验证的一致率都比MDR方法好。GMDR支持广义线性回归等多种模型,图示如下

可以用于处理各种类型的数据,软件下载的网址如下

http://www.ssg./gmdr/

和MDR软件的用法完全一致,导入文件即可。至少要求输入SNP位点的分型结果文件,内容如下

如果需要进行协变量的校正,也可以输入对应的文件,内容如下

每一行对应的都是一个样本,分型结果和协变量两个文件中每一行对应同一个样本,最后一列为因变量y。导入文件后,点击Run Analysis即可开始分析,分析结果如下所示

和MDR输出结果类似,也是有两个部分,第一部分显示了不同数量的因子相互作用中最显著的结果, Training Bal.Acc表示训练集中的准确率,Testing Bal.Acc表示测试集中的准确率,数字越大,范围为0-1,数值越大,准确率越高,CV Consistency表示交叉验证的一致率,8/10表示10次交叉验证中8次该结果都显著。Sign Test(p)表示p值;第二部分则显示了对应的score值等详细信息。

该软件也可以通过命令行运行,更多用法请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

往期精彩

  GWAS meta分析
  基因型填充
  CNV分析
  TCGA
  生存分析
  肿瘤数据库
  肿瘤免疫和新抗原
  Hi-C数据分析
  chip_seq数据分析
  motif
  chip_seq数据库
  18年文章目录

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多