【原】科研 | CURR OPIN BIOTECH：单细胞转录组学方法学和应用综述（1区IF：8.083）

转录组 2021-04-20

展开全文

编译：罗睺，编辑：十九、江舜尧。

原创微文，欢迎转发转载。

导读

单细胞RNA测序（scRNA-seq）是研究脑和中枢神经系统（CNS）中单个细胞转录组的一种有前途的方法。这项技术充当了神经科学，计算生物学和系统生物学之间的桥梁，使人们对大脑和中枢神经系统的细胞组成有一个无偏见的、新颖的理解。单细胞分辨率的基因表达通常是嘈杂的，稀疏的和高维的，这给此类数据的计算分析带来了挑战。在这篇综述中，研究者概述了scRNA-seq的基本样品制备和数据分析过程，对比了部分数据分析和可视化工具。

论文ID

原名：Beyond bulk: a review of single cell transcriptomics methodologies and applications

译名：单细胞转录组学方法和应用的综述

期刊：Current Opinion in Biotechnology

IF：8.083（1区）

发表时间：2019年

通讯作者：Genevieve Konopka

通讯作者单位：美国达拉斯德克萨斯大学西南医学中心神经科学系

图片摘要

综述内容

介绍

高通量单细胞转录组学为研究不同生物组织的细胞多样性提供了全新视角。使用大块组织进行的转录组学研究假定并表示所有细胞为均质材料，因此忽略了基因表达的随机性。然而，单细胞转录组学能够解决与基因表达随机性有关的问题。

在本文中，研究者将重点关注单细胞转录组分析的技术方面，例如单细胞分离和文库制备的各种方法，以及将空间信息与单细胞基因表达分析结合在一起。重点介绍单细胞和单核RNA-seq 之间的共性和差异。总的来说，作者重点关注该领域的一些突出问题，并为单细胞或单核RNA序列研究的设计和实现提供一些有用的资源。

单细胞分离和文库制备

分离单个细胞进行RNA测序的方法因其分离的细胞数量（高通量或低高通量）和选择细胞的方式（有偏或无偏）而异。基于液滴的技术目前常用作高通量、无偏的解决方案。三个最广泛使用的平台是10X Genomics Chromium、DropSeq和inDrop。每种方法都使用微流控技术，用包含唯一条形码的单个珠子标记单个细胞。每一个mRNA转录本也与一个唯一的分子标识符（UMI）相连。这种方法产生一个矩阵，其中包含每个细胞中每个转录本的绝对计数。每个平台都有其优点和缺点：10X Genomics Chromium适于检测较多数量的转录本，尽管它对大量的样本来说成本很高；DropSeq价格相对较低，但是通过计算较少的转录本来平衡轻微的敏感性损失；inDrop可能是检测低水平表达基因的理想方法，因为其可自定义参数。

全长测序和基于标记的测序是生成单细胞测序库的两种不同方法。全长方法提供从整个基因长度中提取的读数，提高了整体灵敏度。然而，全长的文库准备往往显示出对较长基因的偏好，因为对较短基因的计数常常被忽略。基于标签的方法包含UMIs，允许识别和量化单个转录本。这些标记被添加到转录本的3'或5'末端，因此在接收标记的末端引入读取偏倚（尽管没有长度偏差）。虽然全长测序方法可以实现更全面的读取覆盖率，但基于标记的方法在量化方面已占主导地位，尤其是对于较大的细胞数。图1总结了一个广义的单细胞转录组实验。

图1：单细胞转录组实验的示意图。

a 可以从人类或模型系统的任何组织中进行单细胞基因表达谱分析。

b 例如，人脑由多种类型的细胞组成，每种细胞都包含可以分解为相似类型细胞簇的基因表达模式。

c 从源组织到测序的通用scRNA-seq技术路线。

单细胞VS单核

CNS（中枢神经系统）细胞类型在形态学上是复杂的，使得分离完整的细胞具有挑战性。因此，无偏见的神经元分析需要从新鲜收获的，有活力的和完整的神经元中制备RNA-seq文库。大多数应用于脑组织的单细胞分离或制备方法都使用了苛刻的酶分离步骤，这些步骤会伤害神经元并损害神经元的轮廓。一些研究表明，由于分离步骤的人工过滤，一些细胞类型在最终数据集中的代表性不足或代表性过高。

类似的问题也出现在身体的其他组织中，其中一些细胞类型更容易受到组织分离过程的影响，例如心脏。另外，从死后冷冻组织中分离出完整的细胞也很有挑战性，因为细胞膜在冻融过程中很容易受到机械和物理应力的损伤。分离细胞核比分离细胞更有优势，因为在冻融过程中，细胞核对机械和物理应力的抵抗力更强。数项研究已将配对的单细胞与单核进行了比较，例如，在小鼠3T3细胞中和在小鼠体感皮层中。snRNA-seq数据与全细胞转录组在检测到的基因数量和解析的细胞类型方面具有高度相似性，尽管snRNA-seq数据集显示的内含子读取比例高于scRNA-seq，并且检测到更多的短长度基因。snRNA-seq的一个重要方面是确保包含了与外显子或内含子都对应的读取操作，因为从snRNA-seq数据中进行高分辨率细胞类型识别需要对内含子读取计数。

一些方法还试图在解离期间对细胞造成较少的损害。这些方法与早期基因的即时表达（在刺激下转录变化很快）有关。例如，Act-seq通过在解离过程中使用放线菌素D来抑制快速转录变化，从而最大限度地减少了分离和制备过程中的细胞干扰。

单细胞RNA-seq实验的性能评估

每个实验都应该评估scRNA序列数据的技术性能，包括灵敏度、准确度和精密度。灵敏度是指可重复检测的最低数量的转录本。这种测量极其依赖于测序深度。理解数据集的这一方面至关重要，因为它直接估计了单个细胞中被测RNA的比例。准确度是指表达量和实际转录量之间的一致程度。准确性可能会受到所使用方案特有的因素影响，例如指数PCR扩增或测序偏倚。在RNA序列测量中，精度与技术干扰成反比。技术干扰通常被认为是重复测量的变异系数。目前，精确性仍然是当前scRNA序列和snRNA序列的最大限制条件，因为生成的数据通常是稀疏的，并且可能包含许多零。

数据预处理

原始测序数据，通常以二进制形式调用（BCL文件），首先使用寡核苷酸索引序列（例如在10X基因组库准备期间使用的chromium i7索引集）去解复用以生成FASTQ文件。然后对FASTQ文件进行质量控制（QC），以识别并从读取中删除低质量的碱基和排序适配器。过滤之后，读取与参考基因组对齐。然后使用引用注释将唯一映射的读取分配给基因，然后计算每个细胞每个基因的读取数。然后使用这个计数矩阵来区分真正的细胞与双重细胞和空珠子。过滤后的计数矩阵最终实现下游处理，如归一化化、聚类、细胞类型识别和伪时间分析。

考虑到使用Cell Ranger管道的局限性，一种更具可定制性的替代策略是使用多种工具的组合。例如FastQC[FastQC，Babraham Bioinformatics，URL：https：//www.bioinformatics.babraham.ac.uk/projects/fastqc]，UMI工具，STAR，featureCounts，HTSeq，Samtools，zUMI等。有几种特定的管道[分析单细胞RNA-seq数据，URL：http://hemberg-lab.github.io/scRNA.seq.course；这些管道可预处理单细胞/细胞核的原始测序数据转录组分析，URL：https：//github.com/konopkalab/Pipeline-SingleCellRNASeq]公开可用（图2），利用上述工具对数据进行预处理（文末列出了工具参考文献）。

图2：scRNA-seq数据分析的一般工作流程。

a包含读取的原始BCL文件经过质量过滤和多路复用。这些读取包含细胞条形码、分子条形码或UMI以及cDNA序列的信息。

b 使用UMI工具，可以区分真实的细胞和潜在的背景噪声。

c 将读取与参考基因组对齐。

d 使用featureCounts等工具将读取分配给参考注释基因模型。

e UMI工具可以进一步折叠每个细胞中每个基因对应的读取计数，从而创建原始的数字表达式计数矩阵。

f 使用原始计数表，Seurat根据细胞类型将细胞分为不同的簇。

g 促进任何给定簇之间的差异基因表达分析。还可以使用SCDE等专门为单细胞转录数据设计的工具来计算差异表达。

h 其他的分析，包括使用Velocyto等工具的细胞伪时间轨迹。

细胞集群的聚类和可视化

解释单细胞转录体数据需要在原始计数矩阵准备好后执行一些额外的步骤，这些步骤将在R-包和基于python工具的公开用户教程中讨论。目前还不清楚如何理想地将异质细胞群聚集成一组同质的所谓“细胞类型”。在scRNA序列数据处理中使用降维，以便进行下游分析，如聚类、可视化和进一步解释。常见的算法包括主成分分析（PCA）、多维标度（MDS）、Sammon映射、t-SNE和Isomap。PCA等线性降维方法通常不能将高维数据表示成低维数据。在众多的非线性方法中，t-SNE是一种非常流行的聚类可视化方法。尽管迄今为止发表的大多数单细胞RNA序列研究都依赖于t-SNE进行可视化，但相对于较新的可视化方法，若干限制现在已经变得明显。UMAP是一种基于黎曼几何和代数拓扑的非线性降维新算法，在单细胞RNA序列数据的可视化方面更具优势，而且UMAP还保留并投影与多分支轨迹相关的信息，以便于伪时间分析。在作者尚未发布的小鼠纹状体神经元数据集中，UMAP不仅有助于更准确地对细胞进行注释，而且有助于根据细胞的发育轨迹可视化细胞簇（图3）。

图3：非线性降维技术的比较。

使用62778个小鼠纹状体神经元的同一数据集（未发布的数据集），使用t-SNE嵌入绘制细胞图（a）不会在空间上捕获不同细胞类型的轨迹，如（b）UMAP。箭头显示了在UMAP中可见的神经祖细胞簇向完全成熟的棘突投射神经元簇的发展过程，这些神经元簇在UMAP中是可见的；然而，使用t-SNE不能直观地识别出这样的轨迹。

整合空间信息

scRNA-seq方法的一个主要缺点是空间信息的丢失。研究者首次尝试通过荧光原位杂交（FISH）视觉标记单个基因标记来识别通过scRNA-seq鉴定的基因在簇内共表达的空间位置。在smFISH中，多个荧光探针用于根据得到的组合来表征不同的细胞群。但是，这项技术受到可同时显示颜色数量的限制。序列荧光原位杂交（seqFISH）通过为不同的RNA标记依次标记组织来解决这个问题。在每一轮标记后，荧光被冲掉，从而对存在或不存在特定基因的细胞群进行双重标记。然后将唯一的条形码分配给每个细胞群体。这种由序列标记产生的组合条形码使得细胞群的识别比smFISH具有更高的效率和耐用性。MERFISH的发展使得更多的RNA物种可以以较低的错误率被标记。

其他几种观察空间基因表达的方法。转录组的scRNA序列数据可以与空间seqFISH信息进行计算整合。扩展显微镜在保持空间完整性的同时增加了分子间的空间，它与RNA分子的荧光标记一起被用于可视化基因表达。osmFISH是最近发展起来的一种不用条形码标记基因表达的方法，它的主要优点是高表达基因的检测不会掩盖低表达基因的检测。

单细胞转录组学在神经科学中的应用

单细胞转录组学已经发现了新的细胞类型，并阐明了不同脑区和跨物种的神经元以及胶质多样性。这项技术还可以对“细胞状态”和细胞类型进行分子检测。利用细胞核在死后固定和冷冻的人脑组织上实现单细胞转录组学的新方法提供了对人脑进化、发育和功能的见解。单细胞转录组学在模拟人脑发育或疾病状态的实验系统中的应用，例如人脑类器官或动物模型，最终可以帮助阐明人脑发育和功能的保守且独特的一面。

鉴于大脑内细胞类型的多样性，使用scRNA-seq研究神经系统疾病已成为一项重大技术进步。单细胞转录组学已帮助表征X连锁神经发育障碍Rett综合征，其中随机X染色体失活导致同一患者内突变细胞和正常细胞的混合。鉴定单细胞单核苷酸多态性测序（SNP-seq）的新方法可以可靠地检测死后人脑组织中的突变细胞和正常细胞。这种单细胞转录组学工具可广泛应用于其他X连锁神经发育障碍，例如脆性X综合征或X连锁智力障碍。

在小鼠的对照研究和基因敲除研究中，使用scRNA-seq进行分析了细胞组成、差异表达基因和伪时限或伪分化工具在细胞分解时的变化，并删除或操纵了给定的基因（图4）。考虑到任何特定脑区的巨大细胞异质性，单细胞转录组学可以识别在疾病状态下特别脆弱的细胞类型，并解决为什么这些细胞类型特别脆弱的问题。在这些基于对比的方法中使用单细胞转录组学的另一个好处是能够检测细胞自主和非细胞自主的变化。例如，在使用模型删除不同细胞类型中特定基因的研究中，下游分析可以研究一种细胞类型的破坏如何改变其他细胞类型的功能或数量。

图4：比较单细胞转录组研究的示例示意图。

（a）–（b）对照细胞与实验细胞可以聚集在一起，并使用降维工具可视化。

（b）–（d）可以发现对照细胞和实验细胞在不同细胞类型内的基因表达差异，并且可以在样品之间比较组织内的细胞类型组成。

（e）可以在对照和实验系统之间检查其他scRNA-seq工具，例如伪时间分析。

结论和未来挑战

目前，使用少数已知的标记基因或对其他已发表的数据集进行富集来注释聚集细胞是一种常见的方法，但这对识别隐藏在scRNA序列数据集中的新细胞类型构成了一个实际问题。机器学习方法与基于文献的知识相结合可以潜在地解决此问题。全球范围内的许多协作方法，如人类细胞图谱[https://www.]，正在创建一个庞大的数据库来说明人体内每一种细胞类型。随着这些数据的急速增长，当前的挑战是对这些数据集进行仔细的整理、分析和注释。还需要努力克服由于数据集的稀疏性和噪声性、少量的起始材料、由于放大和排序而引入的偏差、技术变化和成本造成的限制。尽管如此，单细胞转录组学技术在空间转录组学和个性化医学领域具有巨大的潜力。

注：主要分析工具参考文献。

Smith Tom, Heger Andreas, Sudbery Ian: UMI-tools: modelingsequencing errors in Unique Molecular Identififiers to improvequantifification accuracy. Genome Res 2017, 27:491-499 http://dx.doi.org/10.1101/gr.209601.116.

Dobin A et al.: STAR: ultrafast universal RNA-seq aligner.Bioinformatics 2013, 29:15-21.

Liao Y, Smyth GK, Shi W: Feature counts: an effificient generalpurpose program for assigning sequence reads to genomicfeatures. Bioinformatics 2014, 30:923-930.

Anders S, Pyl PT, Huber W: HTSeq—a python framework towork with high-throughput sequencing data. Bioinformatics2015, 31:166-169.

Li H et al.: The sequence alignment/map format and SAMtools.Bioinformatics 2009, 25:2078-2079.

Parekh S et al.: zUMIs - a fast and flflexible pipeline to processRNA sequencing data with UMIs. GigaScience 2018, 7giy059-giy059.