转自:Biotree代谢组学(微信公众号) SIMCA14.1中常用的模型检验方法 ➤ 交叉验证(Cross-validation) ➤ 置换检验(Permutation test) ➤ 刀切法(Jackknife) 交叉验证 交叉验证(Cross-validation)主要用于建模应用中,例如PCA、PLS回归建模中。交叉验证的基本思想是将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集建立模型,再利用验证集来测试得到的模型(model),以此来评价模型的性能指标。 K折交叉验证:初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据(验证集),其他K-1个样本用来建模(训练集)。交叉验证重复K次,每个子样本验证一次,平均K次的结果,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果可作为一次独立验证。 建模时,通常使用5到10折交叉验证。在SIMCA 14.1的Autofit自动建模功能中,默认进行7折交叉验证检验,据此判断最佳主成分数。 交叉验证示例(杨树案例数据) 交叉验证示例(药物治疗案例数据) 交叉验证确定主成分个数 置换检验 置换检验(Permutation test) 是Fisher于20世纪30年代提出的一种基于大量计算(computationally intensive),利用样本数据的全(或随机)排列,进行统计推断的方法,因其对总体分布自由,应用较为广泛,特别适用于总体分布未知的小样本资料,以及某些难以用常规方法分析资料的假设检验问题。在具体使用上它通过对样本进行顺序上的置换,重新计算统计检验量,构造经验分布,然后求出新的模型参数进行判断。置换检验的结果与样本量大小、模型建立等因素有关。 在SIMCA 14.1 中,可以手动设置换次数,一般选择200次进行置换检验。 置换检验示例(杨树案例数据) 置换检验示例(Lowarp案例数据) 刀切法 刀切法(Jackknife)是由Maurice Quenouille (1949)提出的一种再抽样方法,其原始动机是降低估计的偏差。Jackknife为一种瑞士小折刀,很容易携带。通过类比,John W. Tukey (1958)在统计学中创造了这个术语,作为一种通用的假设检验和置信区间计算的方法。 Jackknife类似于“Leave one out”的交叉验证方法。令X=(X1,X2,…,Xn)为观测到的样本,定义第i个Jackknife样本为丢掉第i个样本后的剩余样本, 即:X=(X1,…,Xi-1,Xi 1,…,Xn) 由此生成的Jackknife样本集之间的差异很小,每两个Jackknife样本中只有两个单个的原始样本不同。刀切法可降低对标准差估计的偏差。 在SIMCA 14.1中,通过载荷图可以得到刀切法置信区间,置信区间包含零的代谢物将从目标差异代谢物范围内去除,以此来帮助筛选目标差异代谢物。 刀切法标准差估计(杨树案例数据) 刀切法置信区间(杨树案例数据) 小结 ➤ 交叉验证: ● 解决的问题:防止模型过度拟合–由于主成分过多而导致模型过度复杂,影响模型预测能力 ● SIMCA中的实现方式: ● 默认7折交叉验证 ● 使用Autofit时自动由交叉验证结果确定最佳主成分数,防止过拟合 ➤ 置换检验: ● 解决的问题:由小样本数据出发,通过多次重新分组获得类似大样本数据,从而获得数据总体分布趋势 ● SIMCA中的实现方式:默认20次置换检验,使用时常增加至200次 ➤ 刀切法: ● 解决的问题:减小参数误差 ● SIMCA中的实现方式:默认对所有变量进行误差分析,并在柱状Loading图上显示误差线(CVse) SIMCA14.1操作教程PCA-Class模型的应用25/04/2019In “代谢组学” Cell:AI在基因组分析中的应用08/05/2019In “多组学” 文献分享 | 基于大规模多中心人群的肝癌血清标志物研究19/05/2019In “代谢组学” |
|