【原】本来就不应该从数据分析角度解决的批次效应

健明 2023-10-14 发布于广东

展开全文

旁观了今天下午的《BioLinkX》本年度第 12 期【生信半月谈·特别活动：针对微生物组数据的批次效应处理】，互动环节有一个提问蛮有意思的，是医院工作者他们想探索南北不同地域的病人的微生物情况，但是因为病人队列收集耗时很长所以各个医院内部的样品就自己处理了并且产出了数据，但是呢不同实验室产出数据这个过程本身会产生差异，然后样品来自于南北不同地域也有差异。如果是矫正南北地域不同实验室带来的批次效应就抹平了地域的差异，而课题就是想探索地域差异。

看起来确实是陷入了一个困局，而且很早之前我们也讨论过这个话题，并不是所有的批次效应都可以被矫正，因为如果是针对生物学差异与批次效应交叉的情况来去除批次效应，很简单的，比如：

第一个批次：2个处理，2个对照样品
第二个批次：3个处理，3个对照样品

这个时候，就可以使用 limma包的 removeBatchEffect 函数或者 SVA（Surrogate Variable Analysis）包的 ComBat 函数，把批次效应去除掉，然后保留生物学差异供后续的差异分析。

但是如果你的实验设计是：

第一个批次：3个处理样品
第二个批次：3个对照样品

那我就只能奉劝你，对这个数据集说拜拜了！

而提问的小伙伴的南北不同地域的病人的微生物情况的差异就是这样的，其实在实验设计之初就可以把南北地域样品放在不同实验室，这样可以一定程度抹除实验室差异但是保留地区差异。这个方法称为"交叉设计"或"交叉批次设计"，它的基本思想是将不同地区的样品均匀地分配到不同实验室，以使实验室效应在不同地区之间均匀分布。这种设计的优势在于可以控制实验室效应，使得南北地域之间的差异更有可能反映地区特有的生物学差异。然而，需要注意的是，南北地域差异仍然可能受到实验室效应的轻微影响，因此在分析时仍然需要考虑实验室作为一个潜在的协变量。在实施这种设计时，需要格外注意确保样品处理和测序的一致性，以减小实验室效应的影响。此外，还需要在分析中考虑和控制其他可能的协变量，如样品处理时间、测序批次等因素。

因为提问者关心的是微生物数据的批次，所以我没有贸然插嘴，毕竟我的经验都是在转录组相关的，表达量芯片或者转录组测序数据处理，详见：

而且现在绝大部分都是多个类似的数据集可以供找差异，不一定要去批次，完全是可以各自内部独立处理后取交集或者其它统计学方法，比如：

而且单细胞转录组又是另外一个情况，每个样品都是独立的建库测序本身就是一个批次，这个时候我们可以叫做是去批次也可以叫做是多样品整合：

如果大家感兴趣这个微生物数据批次效应处理

会议本身是已经是错过啦，但是既然是生信半月谈为公开活动，而且腾讯会议是录屏了的，所以肯定是有回放！！

感兴趣的小伙伴可以关注《BioLinkX》团队公众号哈，本次分享的录屏会在其b站发布，敬请期待！（ https://space.bilibili.com/1672827724 ）

自我介绍

王怡雯，副研究员，硕士生导师，中国农业科学院农业基因组研究所Pre-PI。2022年获得墨尔本大学生物统计学博士学位。研究专长为针对生物学问题分析和可视化数据，同时开发针对微生物组数据分析的统计和计算方法，开发了PLSDAbatch等算法软件包。以第一作者在Briefing in Bioinformatics，Annals of the Rheumatic Diseases 等期刊发表学术论文多篇。主持中国农业科学院博士后国际交流计划引进项目、中国博士后科学基金站前特别资助、面上项目、国家自然科学基金青年科学基金项目等基金。

报告内容

第一部分，介绍微生物组数据的特点和批次效应的相关背景
第二部分，介绍去除微生物组数据批次效应的算法包：PLSDAbatch
第三部分，介绍校正后无批次效应的微生物组数据分析方法

报告概要

研究微生物组成和表型（包括人类疾病）之间的联系是微生物组研究的主要目标，例如，肠道微生物群落的破坏与多种疾病和亚健康状态有关，从炎症性肠病、糖尿病、到肥胖和营养不良。然而，由于微生物群落是高度动态的，因此微生物组数据极易受到批次效应的影响，批次效应通常掩盖了研究人员所感兴趣的生物学效应。因此，处理批次效应对于提高微生物组研究的有效性至关重要。现有的批次效应校正方法主要是为基因表达量数据开发的，没有考虑到微生物组数据的固有特征，包括零膨胀、过度离散和变量之间的相关性。我们开发了一种基于偏最小二乘判别分析（PLSDA）的多元非参数批次效应去除法，该算法在充分考虑上述微生物组数据的固有特征的前提下，能在去除批次效应的同时很好地保留实验组差异，其延伸算法也可以应对不平衡的实验设计和过拟合现象。