分享

Genome Biol. | 用scINSIGHT解释来自生物异质数据的单细胞基因表达

 DrugAI 2022-04-19

本文介绍由美国罗格斯大学公共卫生学院生物统计与流行病学系的Wei Vivian Li为通讯作者发表在 Genome Biology 的研究成果。越来越多的scRNA-seq数据强调了集成分析的必要性,以解释单细胞样本之间的相似性和差异。尽管已经开发了多种去除批次效应的方法,但没有一种方法适用于来自多种生物条件的异质性单细胞样本。因此,作者提出了scINSIGHT,用于学习协调的基因表达模式,这些基因表达模式在不同的生物条件下可能是共有的或特定的。该方法可以识别不同生物条件下单细胞样本的细胞特性和过程。作者将scINSIGHT与最先进的方法进行比较,结果表明该方法具有更好的性能。本文的实验结果表明scINSIGHT可以应用于不同的生物医学和临床问题。

1

简介

scRNA-seq技术的快速发展产生了大规模的单细胞基因表达数据集,这些数据跨越了广泛的物种、组织类型和实验条件。越来越多的scRNA-seq数据强调了集成生物学分析的必要性,以帮助评估和解释单细胞样本之间的相似性和差异,并获得对潜在生物系统的深入了解。

整合scRNA-seq数据分析的一个基本目标是联合定义细胞簇,获得它们的功能解释和注释,并识别不同细胞类型和生物条件下差异激活的生物途径。然而,实现这一目标的一个关键挑战是单细胞基因表达数据中普遍存在的异质性。

为了消除scRNA-seq数据中出现的批次效应,已经开发了几种批次校正方法,包括mnnCorrect、BBKNN和BEER等。即使上述方法在去除批量效应和综合分析多个单细胞样本方面被证明是有用的,但它们没有考虑到异质性样本来自多个生物组(如不同的组织类型、实验条件或疾病阶段)的情况,因此可能会影响到下游分析的结果。

为了应对这一挑战,作者提出了 scINSIGHT,使用一种基于非负矩阵分解(NMF)的新模型来学习在特定生物条件下不同细胞类型的基因表达模式。与现有工具相比,scINSIGHT具有以下优势:(1)它能够整合单细胞样本,同时考虑到它们的生物条件;(2)它明确地模拟了生物条件中常见或独特的协调基因表达模式,能够从高维基因表达数据中分解出共有的和满足特定条件的基因模块;(3)它利用捕捉细胞特性的常见基因模块,实现了对单细胞样本中细胞簇的精确识别;(4)它能根据细胞组成和模块表达在样本和生物条件之间进行有效比较。(5) 它能发现稀疏的、可直接解释的模块表达模式,以此来帮助功能注释。最后,作者使用模拟数据和真实数据评估了scINSIGHT的性能,这两项研究都证明了其从生物异质性数据中解释单细胞基因表达的准确性和有效性。

2

结果

scINSIGHT通过矩阵分解对异质scRNA-seq数据进行联合建模

作者提出了一个名为scINSIGHT的新型矩阵分解模型,以联合分析属于不同生物条件的多个单细胞基因表达样本,如不同的疾病阶段、治疗组或发育阶段。考虑到来自不同生物条件的多个基因表达样本,scINSIGHT旨在同时识别共同和特定条件的基因模块,并在低维空间中量化它们在每个样本中的表达水平(图1A)。为了实现联合矩阵分解,作者构建了一个旨在最小化分解误差的目标函数,并对特定条件下成分的规模和特定条件基因模块之间的相似性加以限制,并且作者使用基于坐标下降的优化算法找到目标函数的最优解。有了因子化的结果,推断出的表达水平和共同基因模块的表达矩阵可以用来对细胞进行聚类并检测细胞的特性(图1B);特定条件的基因模块可以帮助比较不同条件下转录组的功能差异(图1C);而重建的残差被当作技术噪声来处理。

图1 scINSIGHT通过矩阵分解对异质scRNA-seq数据进行联合建模

scINSIGHT通过整合不同生物条件下的模拟数据揭示了细胞的特性

为了对scINSIGHT的性能进行基准测试,作者使用scDesign模拟了具有已知细胞类型组成和特定条件影响的合成单细胞基因表达数据。这些数据来自三个时间点(T1、T2和T3)的六个单细胞样本,每个时间点有两个样本。作者考虑了六种细胞类型,其中三种(C1、C2和C3)存在于所有六个样本中,另外三种(C4、C5和C6)只存在于特定条件下(表1)。

表1 六个模拟单细胞样本的细胞类型构成

在整合之前,观察到的数据呈现出与不同的细胞类型、样本和条件相对应的不同集群,很难在不同的样本中识别出真正的细胞类型(图2A)。为了获得能够代表真实细胞身份的细胞集群,作者使用scINSIGHT对六个基因表达样本进行了分析,将时间点作为条件因素(图2B)。为了进行比较,作者对比了Seurat,LIGER等几种批次校正的方法(图 2C,2D)。由于模拟数据的真实细胞类型是已知的,作者计算了聚类结果和真实标签之间ARI分数,scINSIGHT和Scanorama在聚类检测方面具有最高的准确性(0.99)(图2E)。为了定量比较在去除样本特有的技术效应方面的整合性能,作者定义了一个整合分数来比较一个样本在局部邻域的细胞频率和它们在整个群体中的频率,整合得分在0到1之间,1分表示完全整合,0则相反。与观察到的数据相比,七种整合方法都表现出了去除技术效应的能力(图2F),大多数方法的得分都在0.8以上。

图2 scINSIGHT通过整合不同生物条件下的模拟数据揭示了细胞的特性

scINSIGHT确定了与黑色素瘤免疫疗法反应有关的T细胞状态

作者从32名接受检查点疗法的黑色素瘤患者的48个肿瘤活检中分离出了6350 CD8+ T细胞的单细胞基因表达数据。根据放射学评估,这48个肿瘤样本被分为31个无反应(NR)样本和17个反应者(R)的样本。未整合的数据呈现出10个明显的集群,其中一些是由少数供体的细胞主导的(图3A)。例如,椭圆线围成的聚类大多包含来自单一供体的细胞,表明聚类分析受到表达数据中技术或供体特异性变化的影响。

为了识别对应于不同T细胞状态的集群,了解非反应者样本和反应者样本之间的生物学差异,作者将scINSIGHT应用于48个单细胞样本(使用CD8+基因标记的表达),将NR/R作为条件因素。scINSIGHT根据九个共同基因模块的活动识别了六个集群(表示为C1-C6)(图3B)。与未整合数据中的聚类不同,这六个聚类并不代表任何明显的批次效应。作者还将Seurat、LIGER、Harmony、scGen和Scanorama应用于使用相同基因特征的48个样本。这五种方法分别确定了12、19、12、11和11个聚类(图3C,D)。为了定量评估整合性能,作者计算了每种方法的整合得分。与观察到的数据相比,六种整合方法都表现出了调整技术效应的能力(图3E),scINSIGHT(0.94)和LIGER(0.95)的得分最高。为了比较聚类结果的簇内一致性,作者计算了各个方法对应的Silhouette分数(图3F),这表明scINSIGHT的簇内一致性最高。

接下来,作者将供体信息作为协变量,使用逻辑回归模型来评估集群比例和NR/R条件之间是否有明显的关联, 以此来判断推断出的集群是否捕捉到了与免疫疗法反应相关的细胞状态。分析结果显示,由scINSIGHT确定的四个(66.7%)簇与免疫疗法的反应有关(使用P值阈值为0.01),其中C1和C4富集于反应者样本,C2和C5富集于非反应者样本(图4A)。作者还检查了scINSIGHT确定的9个共同模块,发现有5个模块在R相关或NR相关的群组中高度表达。模块2和6在C1和C4中高表达(富集于反应者样本)(图4B)。这两个模块中系数最大的前十个基因分别包含CellMarker数据库中的七个和九个NK T细胞的标志物。相比之下,模块3和5在C2中高表达,模块4在C2、C3和C5中高表达(富集于无反应样本)(图4C)。作者将scINSIGHT推断的细胞集群与原始文献中注释的细胞状态进行了比较,发现C3和C5对应于衰竭的CD8+ T细胞,C2对应于衰竭的淋巴细胞。相反,C1和C4对应的是淋巴细胞和记忆T细胞。这些发现与现有的研究一致,这表明T细胞衰竭与癌症的免疫功能紊乱之间存在关联。

图3 scINSIGHT确定了与黑色素瘤免疫疗法反应有关的T细胞状态

图4 scINSIGHT识别与免疫治疗反应相关的T细胞状态

scINSIGHT确定了与COVID-19患者疾病阶段相关的B细胞类型

图5 COVID-19患者B细胞观察数据与综合数据的比较

作者将scINSIGHT应用于研究COVID-19患者不同临床阶段外周血样本的B细胞,以进一步评估其在复杂数据集上的表现。作者从13个捐赠者的14个血样中下载了9741个B细胞的单细胞基因表达数据,并将这些样本分为健康、复杂和康复三个不同的阶段,将scINSIGHT应用于14个样本的基因表达数据,将疾病阶段作为条件因素。基于共同的基因模块,scINSIGHT发现了三个阶段的十个B细胞集群(图5A)。scINSIGHT的集群分配和基于参考文献的注释之间有明显的对应关系,C3与原始B细胞相匹配,C5和C10与浆B细胞相匹配,而其他集群与记忆B 细胞匹配(图5A)。为了进行比较,作者还利用六种替代方法的观察数据或综合数据进行了分析(图5B),计算了每种方法得到的簇分配和真实的簇分配之间的ARI得分,scINSIGHT的一致性最好(图5C)。由于从单细胞数据中发现的细胞类型可能对应于大量参考文献中没有的B细胞亚型,所以预计整体的ARI不是很高。我们还比较了七种方法的整合得分(图5D),所有的方法都得到了比直接使用观测数据更好的结果。

作者还发现C3(原始B细胞)和C6(记忆B细胞),在健康样本中富集,C5(浆B细胞)、C7(记忆B细胞)和C10(浆B细胞),在复杂样本中富集(图5E)。这与最近的研究一致,表明COVID-19感染诱导的保护性免疫力可能依赖于记忆B细胞和浆细胞的产生。为了了解上述五个B细胞簇之间的转录组差异,作者根据scINSIGHT检测到的13个共同模块的表达,确定了每个簇的代表性基因模块(图5F)。结果证实,C6和C7具有不同模块和基因的特征(图5G)。

图6 scINSIGHT识别的疾病阶段特异性模块的比较

作者还比较了scINSIGHT确定的阶段性特异性模块的表达,并证实在一个条件特异性模块中具有较大系数的基因在属于该条件的样本中确实具有较高的表达水平(图6A)。为了比较健康特异性、复杂特异性和恢复特异性模块的生物学功能,作者用每个模块中系数最大的100个基因进行了通路富集分析。结果显示,健康特异性和复杂特异性模块有不同的富集条件,而恢复特异性模块除了其独特的条件外,还与前两者有重叠的条件(图6B)。特别是,复杂特异性模块富集了参与干扰素信号传递、抗原呈递和ATF6激活的基因,这些基因在先天免疫反应中起着关键作用。

scINSIGHT检测小鼠皮肤伤口愈合期间的真皮细胞群

图7 皮肤细胞观测数据与集成数据的比较

在这里,作者使用对照组或处于Hedgehog(Hh)激活条件下的小鼠伤口真皮细胞的基因表达数据,Hh通路的激活已被证明可以在小鼠皮肤伤口愈合过程中诱导毛囊再生。作者将scINSIGHT应用于两个样本的基因表达数据,将对照/治疗作为条件因素,scINSIGHT确定了11个共同的基因模块和4个条件特定的基因模块。基于11个共同的基因模块,scINSIGHT发现了两个条件下的13个细胞集群,利用谱系特异性基因特征的平均表达水平,作者自主的将这些细胞群注释为六种细胞类型(图7A)。

作者还通过Seurat、LIGER、Harmony、scMerge、scGen和Scanorama对观测数据和集成数据进行了分析。在所有的方法中,scINSIGHT取得了最高的Silhouette分数和整合分数(图7B, C)。作者比较了11个共同基因模块的推断表达,发现模块1在Hh-不活跃的成纤维细胞中高表达,模块5和11在Hh-活跃的成纤维细胞中高表达(图7D)。比较结果还表明,在Hh-活性成纤维细胞中存在两个亚群,模块5和11有不同的表达。GO富集分析显示,模块1与细胞外基质组织和胶原蛋白相关的生物过程有关,而这些是成纤维细胞增殖的基础(图7E)。

3

总结与讨论

在这篇文章中,作者提出了一种名为scINSIGHT的新方法来整合多种生物条件下的异质性单细胞数据。基于新型非负矩阵分解模型,scINSIGHT可以学习不同生物条件下共同的或特定的协调基因表达模式,为联合识别异质生物过程和不同细胞类型提供了独特的机会。

作者对scINSIGHT在模拟和真实数据研究中的表现进行了基准测试,与六种流行的整合方法进行了比较。结果证明scINSIGHT有能力准确地发现共同的和特定条件下的基因模块,并根据共同基因模块的推断表达精确地确定细胞类型。在三个真实数据的应用中,scINSIGHT一致证明了其在分析、比较和解释不同样本和生物条件下的单细胞基因表达数据方面的有效性。

基于其识别的细胞集群和分解的基因模块,scINSIGHT能够发现与黑色素瘤患者免疫疗法反应相关的T细胞状态,与COVID-19患者疾病阶段相关的B细胞类型,以及小鼠皮肤伤口愈合的皮肤细胞群。综上所述,相较于其他一些流行的单细胞批次集成方法,scINSIGHT在模拟数据和真实数据研究中具有更高的准确性和可解释性(图8)。

图8 scINSIGHT和其他集成方法的相对性能

参考资料

Qian, K., Fu, S., Li, H. et al. scINSIGHT for interpreting single-cell gene expression from biologically heterogeneous data. Genome Biol 23, 82 (2022). https:///10.1186/s13059-022-02649-3

代码链接:

The scINSIGHT method has been implemented as an R package, which is available on CRAN (https://cran./web/packages/scINSIGHT/index.html) or at https://github.com/Vivianstats/scINSIGHT

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多