文献精讲丨单细胞测序结合生信分析，有哪些sao操作？

生物_医药_科研 2019-01-09

展开全文

单细胞测序以单个细胞为单位通过全基因组或转录组扩增进行高通量测序，能够揭示单个细胞的基因结构和基因表达状态，反映细胞间的异质性。其在肿瘤、发育生物学、神经科学等领域有重要应用，是现今生命科学研究的焦点。

关于单细胞研究，我们已经做过许多讲解。在本期“明信社”专栏中，请来了金特达-高级生信部的白水老师通过精讲nature communications 上的一篇文献，来从生信分析的角度讲一讲单细胞测序在细胞亚群分类中的应用。（预告一下：明晚八点，单细胞系列视频课就要发布啦~）

文章信息

文章标题：Estimation of immune cell content in tumour tissue using single-cell RNA-seq data
发表期刊：nature COMMUNICATIONS
发表时间：2017-12-11
影响因子：12.353

文章摘要

由于免疫系统和肿瘤细胞之间的相互作用受细胞-细胞相互作用的复杂网络的控制，了解实体肿瘤的特异性免疫细胞组成对于预测病人对免疫治疗的反应是必不可少的。

本文作者使用实体肿瘤来源和PBMC（外周血单核细胞）来源的single-cell RNA测序数据，通过数据处理获得相应的特定指标和特定类型的细胞亚型的基因表达谱（RGEPS）推导普通转录组数据中的细胞亚型和细胞比例。这种方式在数学上叫做反卷积。

同时也比较了两种组织来源获得的RGEPs的反卷积效果，证明了肿瘤来源的RGEPs是成功反卷积的关键，而外周血来源的RGEPs是不足以对普通转录组数据实现反卷积。

单细胞数据聚类分析区分了9种主要的细胞类型，包括T细胞、B细胞、巨噬细胞/单核细胞、自然杀伤细胞(NK)细胞，树突状细胞（DC）、成纤维细胞、内皮细胞、卵巢癌细胞，黑色素瘤细胞。其中T细胞包括三种细胞亚型：CD4+、CD8+和调节性T细胞(Treg)，CD4+或CD8+ T细胞和免疫抑制treg细胞的比例被认为是免疫活性和非活性肿瘤的标志物。

利用肿瘤来源的RGEPs，可以估计与多种肿瘤相关的免疫细胞和基质细胞类型的含量，与治疗相关的比例，以及改善恶性细胞的基因表达谱。

文章思路图

而后，作者使用了其中3例卵巢癌腹水样本的单细胞数据和普通转录组数据来进行反卷积验证，同时用荧光激活细胞分选（FACS）实验比较了腹水样品的预测细胞组成。如下图所示，反卷积估计出的细胞分类结果与已报道的结果一致。

文章结论

1. 数据选择与使用

为了描绘出与肿瘤微环境相关的细胞，使用了19个黑色素瘤病人肿瘤样本4645个细胞的数据集
为了研究免疫细胞基因表达的特征, 使用了来自4个健康受试者的外周血4000个细胞的数据集。
使用四个卵巢癌腹水样本3114个细胞的数据获得了免疫和肿瘤细胞基因表达谱数据。

对三个单细胞数据集合并和标准化，然后用t-SNE和DBSCAN算法进行细胞亚群分类。为了便于对分类算法进行基准测试，将细胞主要分为9个亚群（如图1a所示）。肿瘤活组织检查可能包含来自肿瘤血管和血管近处渗出的免疫细胞。因此，PBMC和肿瘤相关免疫细胞之间可能存在部分重叠。

分析了每一个细胞亚群的基因平均表达谱之间的两两相似性，与单个细胞相比对背景噪声的定量和稳健性更强。结果如图1b所示，大多数簇虽然不同，但与来自相同细胞类型的簇关联最密切。这是一个重要的质量控制步骤，证实了数据处理和规范化策略成功地缓解了潜在的批次效应，Tregs似乎在三个不同的数据集中最明显，潜在的表明和所依赖的数据集的相关。作者观察到每个细胞类型的频率在每个样本中似乎是不同的，如图1c所示。与腹水或黑色素瘤样本的细胞组成相比，来自不同供体的PBMC样本的细胞组成更相似。

▲图1 不同来源单细胞基因表达谱的比较

a. 基于基因表达谱的相似性，采用降维技术t-SNE将单个细胞二维排列, 不同的簇与细胞类型（颜色）和数据源（符号类型：PBMC数据集的正方形、黑色素瘤数据集的三角形和腹水数据集的菱形）相关联

b. 细胞亚群的平均基因表达谱成对相关，如树状图所示

c. 每个样品的细胞数量和细胞组成

2. 使用单细胞数据作为反卷积的基准

为了研究普通转录组表达谱数据的反卷积结果如何受到微环境特异性变化和患者间差异性的影响，通过不同策略对各个组织来源和患者的RGEPs数据集进行平均，并使用这5类RGEPs对已知细胞组成的样本进行比较推测其细胞组成。RGEP1是仅源于PBMC单细胞测序数据集，不适用与对肿瘤相关细胞类型的推导；RGEP2包括了三个数据集的所有细胞类型（PBMC、黑色素瘤和腹水）；RGEP3可以特定指示细胞类型和细胞的样本类型；CNTR1根据个体对肿瘤细胞类型划分，组织来源对非肿瘤细胞进行划分；CNTR2的所有细胞的类型划分通过个体的具体信息。

▲图2 构建五类RGEP以对估计精度进行衡量：

a. 收集多个病人的不同位置来源（黑色素瘤、腹水、PBMC）的单细胞基因表达谱,颜色表示细胞类型，数字表示病人样本，符号表示来源位置（三角形代表黑色素瘤、方形代表PBMC和菱形代表腹水)

b. 从三个单细胞数据集构建RGEP：

RGEP1：基于PBMC数据，按照细胞类型分类，计算每个细胞类型的表达谱； RGEP2：不考虑样本来源，将细胞按照类型归类，计算每个细胞类型的表达谱；RGEP3：按照细胞类型和样本组织来源分类，计算每个细胞类型的基因表达谱； CNTR1：肿瘤细胞按照个体划分，非肿瘤细胞按照样本组织来源和细胞类型分类 CNTR2：所有细胞类型按照个体信息划分。

3. RGEP的来源和质量对反卷积的结果的影响

通过合并27个样本的原始数据，人为构建“bulk” 基因表达数据，通过5个RGPEs并使用CIBERSORT的算法对普通转录组测序数据进行反卷积。CIBERSORT算法最初是为微阵列数据的反卷积而开发的，在这里作者展示了该算法可以应用于RNA测序数据。

所有的反卷积都使用一组特征基因集，该基因集包括1076个基因，这些基因被证实能最大限度地分化各种细胞类型。将估计的细胞比例与27个样本中的细胞真实比例进行比较（图3a）。估计细胞组成与真实细胞组成之间的皮尔逊相关系数被用作预测准确性的度量（图3b）

▲图3 细胞成分的估计精度取决于RGEP的来源和质量：

a. 27个样本真实数据的散点图和估计的细胞比例。每个点代表一个样本。靠近对角线的值对应着较高的反卷积精度。列表示细胞类型;行表示五种不同的表达谱 (RGEP1-3和CNTR1-2)。ρ表示的皮尔森相关系数。在表达谱RGEP1中，肿瘤相关细胞类型的估计数不可用.

b. 基于5个表达谱估计的细胞百分数和真实的细胞百分数的相关系数。点表示相关系数的中值；阴影表示基于扩展的不确定性（上四分位数和下四分位数）。（请注意图形轴的不同比例。）

总的来说，基于RGEP1的估计精度 (Pearson相关ρ=0.82)与RGEP2和RGEP3或CNTR1和CNTR2(Pearson相关ρ≥0.98)相比较低，对于RGEP1，对T细胞(Pearson相关ρ=0.88，这里没有区分亚型)、B细胞(Pearson相关ρ=0.99)和巨噬细胞/单核细胞(Pearson相关ρ=0.99)的估计效果良好，DC的估计值(Pearson相关ρ=0.04)很差，而NK细胞的估计值很低(Pearson相关ρ=0.78)。对于RGEP2(Pearson相关ρ=0.82)和RGEP3(Pearson相关ρ=0.95)，DCs的估计显著提高。对CNTR1(Pearson相关ρ=0.97)来说，DCs的估计精度仍略有改善，对CNTR2来说DCs估计精度(Pearson相关ρ=1.00)达到最大值，表明DCs的基因表达严重依赖于样本来源，这与DCs的不同亚群在免疫生成中高度特异性的证据一致。对于RGEP2到CNTR2，肿瘤相关细胞类型(CAF、EC和恶性细胞)的估计变得可用并且被精确地估计(Pearson相关ρ≥0.95)。对于CNTR2，EC和CAF细胞的估计精度与其他四个RGEPs（Pearson相关ρ~0.95）相比具有更高的精度（Pearson相关ρ=1.00），表明这些细胞类型的基因表达受个体特异性微环境的影响。

对于T细胞，每个亚群分别进行估计。在图3中，添加所有T细胞亚群的估计值以获得每个样本的总T细胞比例。单个T细胞亚群的结果是特有的(见图4)。考虑到T细胞比率对治疗结果的重要性，作者进一步分析了T细胞亚群的估计精度以及治疗相关的T细胞比率（图4）。令人惊讶的是，对于CD8+T细胞，对所有RGEP，估计结果是准确的（Pearson相关ρ~0.95）。对于CD4+T和调节性T细胞，使用RGEP1来估计得出的结果一般（Pearson相关ρ=0.63和ρ=0.43），但对RGEP2有显著的改善（Pearson相关ρ=0.87和ρ=0.94），表明T细胞的基因表达受病人特异性微环境的影响。

▲图4 T细胞群内T细胞亚群的估计精度和临床相关的T细胞比率及其与RGEP来源和质量的关系

a.27个样本真实数据的散点图和估计的细胞比例。每个点代表一个样本。靠近对角线的值对应着较高的卷积积精度。列描述细胞类型;行描述五种不同的表达谱 (RGEP1-3和CNTR1-2)。ρ表示的皮尔森相关系数。在表达谱RGEP1中，肿瘤相关细胞类型的估计数不可用

总之，利用合适的表达谱数据（基于特定指标的基因表达谱RGEP3）进行反卷积足以获得对样本细胞组成的可靠估计，而不需要具体的病人细胞类型数据。利用基于外周血数据(RGEP1)或基于所有三个数据集平均值的(RGEP2)基因表达谱进行反褶积的准确性要低得多。当考虑到距离平分线的距离(如图4所示)作为估计精度的度量时，作者发现调节性T细胞存在一致的高估。调节性T细胞含量的估计会与其表达谱相似的非调节性CD4+T细胞相混淆。对于非调节性CD4+T细胞，由于非调节性CD4+T细胞的总百分比高于调节性T细胞的百分比，因此非调节性CD4+T细胞的含量会存在相应的低估，尽管存在T细胞亚型的偏差，但是临床相关T细胞比率的估计不受影响。

为了探讨相似的细胞类型分布或缺失的细胞类型分布对估计精度的影响，作者系统地评估了从RGEP3中去除一个细胞类型分布的情况。对于大多数情况和细胞类型，删除其他细胞类型的表达谱不会影响估计精度。CD4+T细胞、巨噬细胞/单核细胞以及恶性肿瘤细胞类型的估计准确性对所有变化都具有稳定性。作者观察到一些更紧密相关的细胞类型的估计精度降低。去除CD4+T细胞会影响CD8+T细胞估计的准确性，而去除CD8+T或CD4+T细胞都会影响调节性T细胞估计的准确性，去除巨噬细胞/单核细胞影响B细胞的准确性，去除B细胞或巨噬细胞/单核细胞会影响树突状细胞的准确性，去除CD8+或CD4+T细胞影响NK细胞的准确性，去除黑色素瘤细胞表达谱影响内皮细胞和成纤维系细胞的准确性。

为了确定使用备选基因集对反卷积的影响，作者使用性能最好的RGEP3和四个附加基因集以及三个备选反卷积算法重复分析。有趣的是，与RGEP的来源和质量的影响相比，不同基因集和解卷积算法的影响相对较小。

4.利用独立数据对反卷积结果进行验证

作者使用四个卵巢癌腹水样本中的三个样本的普通转录组数据，应用反卷积方法和RGEP3获得样本的细胞组成。此外，使用相同的三个样本，通过FACS用实验来对细胞成分进行定量和单细胞RNA测序并利用算法进行细胞类型的分类。图5a显示了这三个样本的数据生成的示意图，图5b显示了通过三种不同方法获得的结果比较。

总的来说，结果是一致的。由于这三种方法都有内在误差，它们只提供样本的细胞估计组成。这种偏差是符合预期的，并且可能源自样品处理的差异。在作者的验证数据中，观察到用FACS定量时，巨噬细胞/单核细胞群体的估计值降低。基于单细胞测序的细胞分类高估了样本中巨噬细胞/单核细胞的比例。类似地，反卷积方法低估了CD4+T细胞的比例，也低估了低丰度的树突状和NK细胞亚群含量。

▲图5 对3例卵巢癌腹水标本进行了单细胞测序和普通转录组测序，以及FACS

a. 三个卵巢癌腹水样本的数据和结果生成流程图

b. 细胞组成的估计是通过：（1）基于单细胞RNA测序数据的分类；（2）利用单细胞RNA测序衍生的RGEP3进行普通转录组测序数据的反卷积；（3）FACS定量。对于样本7892，巨噬细胞/单核细胞的定量不能被FACS测定.

作者用FACS实验比较了腹水样品的预测细胞组成。如图所示，预测的分类结果与已报道的结果以及FACS测量结果一致。

▲图6 对细胞类型分类进行文献对照和实验流式细胞仪分析

a. FACS细胞分类结果（左边，深色）与Tirosh等人提供的数据集中所有黑色素瘤样本的细胞类型进行比较（右边，浅色）

b. 三例卵巢腹水样本的细胞类型分类（左边，深色）与FACS数据（右边，浅色）的比较, 对于样品7892M，FACS没有定量到巨噬细胞/单核细胞。

5.肿瘤细胞基因表达谱的估计

使用scRNA-seq数据，通过计算估计每个病人样本的肿瘤细胞表达谱，并将其与真实的肿瘤细胞谱进行比较（图7a）。由于某些基因，如管家基因，在所有细胞之间相互关联，因此预期存在一定的基线相关性。作者通过将非恶性细胞的基因表达谱与真实的肿瘤细胞基因表达谱相关联来估计这一基线的相关性。作者观察所有样品的一个基线皮尔逊相关性为ρ0.7 - -0.8,不考虑样本和样本中估计的肿瘤细胞比例如何。正如所预期的，肿瘤细胞表达的估计精度随着肿瘤细胞含量的增加而提高（图7b）。

▲图7 病人特异性肿瘤细胞基因表达谱的估计准确性

a. 单个病人样本的肿瘤细胞的估计与真实转录组基因表达（17933个基因）的散布图。没有肿瘤细胞的病人样本已被排除在该分析中。ρ表示皮尔逊相关。灰色背景的相关图显示肿瘤细胞含量低于20%的病人样本，颜色根据b组中的图例。

b. 来自a组的相关值与每个病人样本中肿瘤细胞的估计比例相对应。阴影表示基于扩展的不确定性。（上四分位数和下四分位数）符号和编号表示单个病人样本。

当样本中肿瘤细胞的估计比例超过20%时，估计的肿瘤细胞基因表达谱与真实的表达谱的皮尔逊相关显示出ρ>0.9。与未校正的整体基因表达谱相比，在肿瘤细胞大于20％但小于70％的样品中预测的肿瘤细胞基因表达谱与真实肿瘤细胞基因表达谱具有更好的相关性。如果一个样本含有超过70%的肿瘤细胞，则整个样本的基因表达谱已经由肿瘤细胞主导，不需要任何减法（去掉多余的细胞表达谱）。对于小于20%的肿瘤细胞样本，由于肿瘤细胞基因表达的信号低，所以减法不能改善估计精度。此外，整个样本的基因表达谱也不能提供阴性对照中肿瘤细胞谱的信息，阴性对照中为非肿瘤细胞谱。综上所述，对于肿瘤细胞含量在20 - 70%之间的样本，反卷积可以显著改善基因表达谱。

文章讨论

本文展示了如何将反卷积方法应用于普通转录组基因表达数据以推断细胞组成，以及提供从普通转录组基因表达数据将细胞异质性与生物功能或药物反应联系起来的工具。作者展示过细胞类型特异性指示的RGEP反卷积方法，如CIBERSORT，可以精确地估计指定的活检样本的细胞组成，并且通过消除来自非恶性细胞的污染，还提供关于肿瘤细胞基因表达谱的更准确的信息。如果肿瘤细胞含量在20%到70%之间，则这最相关。

对不同的RGEPs和不同的反卷积算法进行基准测试，结果表明RGEP的来源和质量最终决定了估计精度。来源于PBMC的RGEP不足以精确地反卷积肿瘤普通转录组基因表达数据。通过将完善的反卷积算法与最先进的肿瘤活组织切片的单细胞RNA-seq数据相结合，作者发现，直接从肿瘤微环境中获得的免疫、基质和肿瘤细胞的特征表达谱可用于获得对给定样本的细胞组成的精确估计。然而，病人之间的差异性将继续是反卷积方法的一个混淆因素。解决这一问题的一种策略是分析来自不同肿瘤类型的大量匹配肿瘤和血液样本，并量化病人之间的差异性对所提出的反卷积方法的影响。