【干货】SIMCA14.1中常用的模型检验方法

栖柒七 2019-07-28

展开全文

转自：Biotree代谢组学（微信公众号）

SIMCA14.1中常用的模型检验方法

➤ 交叉验证(Cross-validation)

➤ 置换检验(Permutation test)

➤ 刀切法(Jackknife)

交叉验证

交叉验证(Cross-validation)主要用于建模应用中，例如PCA、PLS回归建模中。交叉验证的基本思想是将原始数据(dataset)进行分组，一部分做为训练集(train set)，另一部分做为验证集(validation set or test set),首先用训练集建立模型，再利用验证集来测试得到的模型(model)，以此来评价模型的性能指标。

K折交叉验证：初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据（验证集），其他K-1个样本用来建模（训练集）。交叉验证重复K次，每个子样本验证一次，平均K次的结果，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果可作为一次独立验证。

建模时，通常使用5到10折交叉验证。在SIMCA 14.1的Autofit自动建模功能中，默认进行7折交叉验证检验，据此判断最佳主成分数。

交叉验证示例（杨树案例数据）

交叉验证示例（药物治疗案例数据）

交叉验证确定主成分个数

置换检验

置换检验(Permutation test) 是Fisher于20世纪30年代提出的一种基于大量计算(computationally intensive)，利用样本数据的全(或随机)排列，进行统计推断的方法，因其对总体分布自由，应用较为广泛，特别适用于总体分布未知的小样本资料，以及某些难以用常规方法分析资料的假设检验问题。在具体使用上它通过对样本进行顺序上的置换，重新计算统计检验量，构造经验分布，然后求出新的模型参数进行判断。置换检验的结果与样本量大小、模型建立等因素有关。

在SIMCA 14.1 中，可以手动设置换次数，一般选择200次进行置换检验。

置换检验示例（杨树案例数据）

置换检验示例（Lowarp案例数据）

刀切法

刀切法(Jackknife)是由Maurice Quenouille (1949)提出的一种再抽样方法，其原始动机是降低估计的偏差。Jackknife为一种瑞士小折刀，很容易携带。通过类比，John W. Tukey (1958)在统计学中创造了这个术语，作为一种通用的假设检验和置信区间计算的方法。

Jackknife类似于“Leave one out”的交叉验证方法。令X=(X1,X2,…,Xn)为观测到的样本，定义第i个Jackknife样本为丢掉第i个样本后的剩余样本，

即：X=(X1,…,Xi-1,Xi 1,…,Xn)

由此生成的Jackknife样本集之间的差异很小，每两个Jackknife样本中只有两个单个的原始样本不同。刀切法可降低对标准差估计的偏差。

在SIMCA 14.1中，通过载荷图可以得到刀切法置信区间，置信区间包含零的代谢物将从目标差异代谢物范围内去除，以此来帮助筛选目标差异代谢物。

刀切法标准差估计（杨树案例数据）