分享

【干货】SIMCA14.1中常用的模型检验方法

 栖柒七 2019-07-28

转自:Biotree代谢组学(微信公众号)

SIMCA14.1中常用的模型检验方法

➤ 交叉验证(Cross-validation)

➤ 置换检验(Permutation test)

➤ 刀切法(Jackknife)

交叉验证

 交叉验证(Cross-validation)主要用于建模应用中,例如PCA、PLS回归建模中。交叉验证的基本思想是将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集建立模型,再利用验证集来测试得到的模型(model),以此来评价模型的性能指标。

K折交叉验证:初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据(验证集),其他K-1个样本用来建模(训练集)。交叉验证重复K次,每个子样本验证一次,平均K次的结果,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果可作为一次独立验证。

建模时,通常使用5到10折交叉验证。在SIMCA 14.1的Autofit自动建模功能中,默认进行7折交叉验证检验,据此判断最佳主成分数。

交叉验证示例(杨树案例数据)

交叉验证示例(药物治疗案例数据)

交叉验证确定主成分个数

置换检验

置换检验(Permutation test) 是Fisher于20世纪30年代提出的一种基于大量计算(computationally intensive),利用样本数据的全(或随机)排列,进行统计推断的方法,因其对总体分布自由,应用较为广泛,特别适用于总体分布未知的小样本资料,以及某些难以用常规方法分析资料的假设检验问题。在具体使用上它通过对样本进行顺序上的置换,重新计算统计检验量,构造经验分布,然后求出新的模型参数进行判断。置换检验的结果与样本量大小、模型建立等因素有关。

在SIMCA 14.1 中,可以手动设置换次数,一般选择200次进行置换检验。

置换检验示例(杨树案例数据)

置换检验示例(Lowarp案例数据)

刀切法

刀切法(Jackknife)是由Maurice Quenouille (1949)提出的一种再抽样方法,其原始动机是降低估计的偏差。Jackknife为一种瑞士小折刀,很容易携带。通过类比,John W. Tukey (1958)在统计学中创造了这个术语,作为一种通用的假设检验和置信区间计算的方法。

Jackknife类似于“Leave one out”的交叉验证方法。令X=(X1,X2,…,Xn)为观测到的样本,定义第i个Jackknife样本为丢掉第i个样本后的剩余样本,

即:X=(X1,…,Xi-1,Xi 1,…,Xn)

由此生成的Jackknife样本集之间的差异很小,每两个Jackknife样本中只有两个单个的原始样本不同。刀切法可降低对标准差估计的偏差。

在SIMCA 14.1中,通过载荷图可以得到刀切法置信区间,置信区间包含零的代谢物将从目标差异代谢物范围内去除,以此来帮助筛选目标差异代谢物。

刀切法标准差估计(杨树案例数据)

刀切法置信区间(杨树案例数据)

小结

➤ 交叉验证:

  ● 解决的问题:防止模型过度拟合–由于主成分过多而导致模型过度复杂,影响模型预测能力

  ● SIMCA中的实现方式:

     ● 默认7折交叉验证

     ● 使用Autofit时自动由交叉验证结果确定最佳主成分数,防止过拟合

➤ 置换检验:

  ● 解决的问题:由小样本数据出发,通过多次重新分组获得类似大样本数据,从而获得数据总体分布趋势

  ● SIMCA中的实现方式:默认20次置换检验,使用时常增加至200次

➤ 刀切法:

  ● 解决的问题:减小参数误差

  ● SIMCA中的实现方式:默认对所有变量进行误差分析,并在柱状Loading图上显示误差线(CVse)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多