大数据预处理阶段最常见和必要的形式是归一化,用于将所有数据集中并重新缩放为一个整体数值矩阵,以提高其数值稳定性、整体性能和模型拟合。例如,最常用的归一化公式是Z-score,也称为标准分数。
SAM是一个Microsoft Excel插件包,是一种广泛使用的基于高通量的互换方法,使用改进的t-statistics (q-value)来识别在蛋白质组数据中多组样本之间的差异表达蛋白,该方法衡量蛋白质丰度和疾病结果之间关系的强度。与小样本量的常规t-test不同,SAM算法非常适用于大数据,通过对蛋白质丰度的列进行置换,并通过最近邻算法自动插补缺失数据,使假阳性和假阴性的数量最小化。此外,SAM的一个有价值的特点是,它利用数据的排列组合给出了错误发现率的估计值,即可能被偶然确定为有意义的蛋白质的比例。
层次聚类算法(HCA)已被用于通过形成基于数学模型的树状图对大数据进行聚类。为了测量数据点之间的距离,建立了几个基于数学公式的优化模型,包括曼哈顿距离(L1)、欧几里得距离(L2)、皮尔逊相关系数等。距离度量的选择会影响HCA的性能,因此应谨慎决定。在HCA之前,应明确定义基本变量(生物标志物)、样本选择标准和研究目标,以便进行稳健和可重复的分析。此外,HCA可分为单向和双向HCA。还有一种特殊的聚类分析,称为时间序列表达的网格分析(GATE),用于根据时间序列分析和可视化高维生物分子。
层次聚类分析(HCA)和时间序列表达的网格分析(GATE)示例
与对已知样本进行分类的聚类分析不同,(预测性)判别分析是根据算法在训练集中学习和建立的内容对未知样本进行分类,例如不依赖于数据类型的支持向量机(SVM)可用于线性分离数值或分类数据,并确定潜在的生物标志物作为分类器。(基于机器学习与否)判别分析的主要目的是设计一个计算有效的统计学模型,对多组受试者进行分类,并确定预测率较高的潜在分类器。
Kaplan-Meier(K-M)曲线是一种时间事件统计方法,用于研究终点事件与时间周期之间的关系。它可用于评估生存时间、疾病复发、临床试验、动物研究等。K-M估计是计算生存时间的最简单方法。两条生存曲线可以通过log-rank (Mann–Whitney U) 检验进行统计比较,该检验已被广泛使用,包括计算过程中具有不同权重函数的Breslow和Tarone。但它们通常作为单变量分析,不允许测试其他疾病相关变量的影响。相比之下,经常用作多变量分析的Cox比例风险回归模型可以在识别疾病自变量的同时测试其他变量的影响。此外,许多流行的回归模型被用于分析蛋白质组学或基于芯片的大数据,它们的功能在不同程度上类似于Cox回归模型,例如多变量逻辑回归。
主成分分析(PCA)的主要目的是通过创建一组称为主成分的新变量来降低大数据的维数,以表示原始数据集中的大部分信息。因此,只有前几个主成分是最有代表性的,这种每个主成分的变异性逐渐减少的趋势可以用scree图来表示。这种通过主成分降低数据集内维度表示的统计方法对于大数据集或大数据的分类和压缩非常有用。
Ingenuity通路分析、基因集富集分析和circos分析
许多分析方法结合在线数据库分析蛋白质组学和微阵列数据,更适合于发现临床意义。Ingenuity通路分析(IPA)是一种基于web的软件应用程序,用于使用表达式数据集进行因果分析。IPA可以同时可视化和分析基因组学、蛋白质组学和代谢组学数据的跨数据库数据,以获得综合各种组学格式的信号网络和典型通路。基因集富集分析(Gene set enrichment analysis, GSEA)是另一种计算方法提供通路富集工具来帮助解释数据集。这种方法关注多个基因作为基因集表达的累积变化,这些基因集共享相似的生物功能、染色体位置或调控,而不是单个基因来识别通路。GSEA方法最显著的优点是它可以捕捉到一些通路,其中几个基因在少量但以一种协调的方式改变。
此外,Circos是一个软件包,用于在圆形布局中可视化基于组学的数据和信息。可以创建Circos图来探索经典通路与临床病理特征或风险因素之间的关系和贡献。
Circos图示例:在所有八种临床病理类型中,性别占分布的最显著比例,表明是对信号网络影响最大的临床因素。
SCoPE2和Scp是用于分析多重单细胞蛋白质组数据的R包,而SCeptre是它们在Python中实现的对应软件包。一些通用的蛋白质组学流程也可用于处理单细胞蛋白质组学数据,包括计算质量控制工具和用于数据处理和可视化的单一流程(MSnbase)。