【原】超长综述｜单细胞RNA测序研究动脉粥样硬化指南

转录组 2021-04-20

展开全文

编译：刘娟，编辑：十九、江舜尧。

原创微文，欢迎转发转载。

导读

单细胞水平的分子异质性研究技术加深了我们对包括动脉粥样硬化斑块在内的组织中细胞生物多样性的了解。现有的商业化系统能从成千上万个单细胞中获取转录组和与其相匹配的表型，它正在迅速改变我们现有对于细胞类型和谱系特征的认知。新兴的方法还能推测细胞功能，从而阐明多种疾病反应（如动脉粥样硬化）的各组成部分的相互作用。这篇综述从应用研究工具来推进心血管疾病研究的角度，提供了一个用于设计、实施、组装和解释当前单细胞转录组学方法的技术指南。

论文ID

原名：Single Cell RNA Sequencing in Atherosclerosis Research

译名：动脉粥样硬化研究中的单细胞RNA测序

期刊：Circulation Research

IF: 15.862

发表时间：2020年4月

通讯作者：Klaus Ley

通讯作者单位：Laboratory of Inflammation Biology, La Jolla Institute for Immunology, 9420 Athena Cir, La Jolla, CA 92037

DOI号：10.1161/CIRCRESAHA.119.315940

介绍

动脉粥样硬化是心血管疾病的主要病因，例如，冠状动脉病变导致心肌梗死，脑血管病变导致中风以及外周动脉病变导致截肢。动脉粥样硬化表现为中型或大型动脉中富含细胞和脂质斑块。在动脉粥样硬化形成后，浸润的白细胞可以促进血管炎症、斑块生长、钙化、不稳定、斑块破裂或侵蚀，最终导致破坏性的动脉血栓形成，使得受影响的动脉完全或部分闭塞，最终导致临床症状。

炎症是人类动脉粥样硬化的一个关键因素，与各种免疫细胞的浸润有关。了解动脉粥样硬化斑块的细胞组成成分的多样性，有利于阐明动脉粥样硬化的免疫反应，从而有望开展新的治疗。传统上，动脉粥样硬化斑块中免疫细胞浸润的成分是通过免疫标记或流式细胞术(FACS)来评估的。免疫染色可以同时研究的参数约3至8个，而流式细胞术约8至16个。新的高参数流式细胞术允许测量多达28个荧光参数并将很快增加到40个(Cytek Aurora)。发展大规模细胞检测技术可以检测到包括胞内细胞因子或转录因子在内的约35 ~ 42种表面标志物，但不能提供有关mRNA的信息。狭义上的转录组是指一个细胞中所有mRNA的集合。本综述将介绍目前的用于评估转录组和细胞表面标记的单细胞技术并概述推动该领域向前发展的新兴技术。

主要内容

1.单细胞方法的引物

新一代测序方法(Next-generation sequencing, NGS)和单细胞包装的微流体装置以及先进多孔板的出现，使得单细胞间的转录组分析成为可能。NGS指的是应用荧光或基于离子的多链分析方法进行DNA测序，同时允许测量(有时称为散弹枪测序)整个转录组。与传统的Sanger测序相比，NGS极大地减少了对大量DNA模板的需求，提高了读数可靠性，降低了RNA测序的成本和时间。与NGS技术相补充的是微流体装置，微流体装置具有毛细管样的限制，能够在一个封闭的系统中增加所需空间、密度或电荷的分子或细胞。微流体平台允许试剂在细胞或基质中流动，大大减少了实验所需的样品和试剂。单细胞RNA测序(scRNA-seq)技术通常使用微流体平台来分离感兴趣的细胞并执行样品制备的初始步骤。另外，多孔板系统也可用于相同的目的，每个板上有250000(BD Rhapsody)到100万(Celsee)孔。总的来说，新一代测序方法与现代微流体技术或多孔技术相结合，使单细胞技术改革成为可能。

商业化的scRNA-seq方法从2017年才开始使用(表1), 但是实验性的单细胞转录组学从20世纪90年代早期就开始尝试了。早期的成果受到了低细胞数量的限制，同时也受到了在特定实验中可以检测到的转录本数量的限制。应用现代方法，高灵敏度的转录组覆盖成千上万的细胞是很容易实现的。scRNA-seq方法被用来识别骨髓中浆细胞样树突状细胞的前体，并首次揭示了人类胸腺器官发生和早期T细胞发育的细节。从scRNA-seq中获得的小鼠主动脉T细胞或肿瘤相关巨噬细胞的转录特征分别被用来预测复发性缺血性事件患者的预后或乳腺癌患者的预后。将转录组学与使用寡核苷酸标记的mAbs进行细胞表面表型评估相结合，可以开发出更好的识别标记来区分细胞群并识别出许多新的细胞类型。例如，最近scRNA-seq被用于开发斑马鱼大脑内的谱系追踪网络。这些方法将有助于在胚胎发育过程中识别新的细胞类型及其细胞起源。

表1.比较scRNA-seq的方法

最初的微阵列方法是用来测定组织中的大量转录组，如动脉粥样硬化斑块或细胞混合物，如外周血单核细胞。流式细胞术分类的细胞群如主动脉巨噬细胞或新近发现的与动脉粥样硬化相关的Treg亚群的转录组是通过细胞分类的大量RNA-seq获得的。scRNA-seq数据的产生使得批量RNA-seq的问题变得明显起来。即使在一种细胞类型中，转录组也随着激活、细胞周期、凋亡、压力或一天的时间(昼夜节律)而变化。去卷积方法（Deconvolution），如Cibersort，使得在大容量转录组中发现的细胞成分成为可能，但仅对具有已知转录组的已知细胞类型。正在开发批量RNA-seq数据集的完整Decovolution方法是不需要事先了解组织组成的。scRNA-seq使得我们在批量RNA-seq数据集中识别准确的基因表达deconvolution所需的基因标签，因此，最近生成的scRNA-seq数据集可以用来重新分析之前研究的批量RNA-seq。使用scRNA-seq将继续帮助我们理解给定组内细胞之间的关系，并允许在单个snapshot的时间范围内预测分化轨迹。

近年来，一些研究将大规模细胞检测技术和scRNA-seq技术引入心血管领域以研究多种细胞类型，包括基质细胞、内皮细胞和免疫细胞。此外，插入人工基因的命运图谱分析（fate-mappning)方法也可用于跟踪新招募的细胞或绘制疾病动力学中异质人群的分化。无偏倚的维数减少和聚类算法有助于发现新细胞类型和更高分辨率的亚细胞群。这些研究的结果为发现动脉粥样硬化调控的新方法奠定了基础。在此，本文回顾现有研究的目的是为scRNA-seq的实验设计、文库准备、处理和生物信息学方法提供指导，以开发更可靠的实验方法。

2.样本制备

实施有效的scRNA-seq的第一步是在悬浮液中获得一个活的靶细胞群体，并将群体偏倚或基因表达改变(表2)最小化。转录组分析方法引入变异的主要原因通常是使用酶和机械分离方法从致密组织中提取细胞。研究者必须确定是否需要组织处理、消化，甚至细胞分类，因为每一个额外的步骤都可能会给最终的数据集带来偏差。

对于从悬浮液(如血液)中分离出来的细胞，细胞只需要简单的清洗，就可以加入到需要的scRNA-seq平台中。在一些软组织比如脾脏和淋巴结中，淋巴细胞只能从单一细胞悬浮液中分离产生，这些悬浮液由机械方法产生 (通常是通过一个70μm尼龙网)而没有酶的消化。然而，对于组织内的其余细胞，最常见的方法是胶原酶和DNA 酶的混合酶消化方法，尤其是对于心血管疾病的组织。对于每个组织，条件(酶、浓度、时间、温度、离子组成)需要优化和验证，利用蛋白酶在4°C至6°C活性的冷消化方案对肿瘤组织的分离是有效的，并揭示了胶原酶在37°C消化的结果激活了应激反应基因。当消化持续1小时以上时，这种应激反应特别明显。很少有基因与冷蛋白酶消化方法相关。冷蛋白酶的替代方法包括使用转录抑制剂，如放线菌素D，以防止在分离过程中应激反应成分被激活。

表2.CITE-seq(或AB-seq)与scRNA-seq相结合的前景

合理的验证步骤是在血细胞上使用酶混合物，并比较暴露于酶的细胞与未暴露于酶的细胞的表型。大动脉和心脏活组织检查的方案(未发表)还有待于进一步研究。由于潜在的偏倚或不可重现的数据，样品是否需要酶混合物，酶消化是否必须在更高的温度下执行(如37°C), RNA表达水平在哪里修改更快捷、更广泛, 这些都应该加以研究。最近的一项研究表明，对肌肉进行2小时的胶原酶处理以分离肌肉常驻卫星细胞，可立即诱导早期基因的表达，包括Fos、Jun、Socs3和多种热休克蛋白，标志着细胞应激反应。这些基因在1小时胶原酶消化的细胞中检测不到。因此，对于所应用的组织分离方法，需要对已发表的数据集进行仔细评估，并可能需要根据细胞应激重新解释。另一个可能导致从复杂组织中分离出的细胞的质量和产量下降的来源是长时间的手工操作，如去除血管周围的脂肪组织或切割样品以快速消化。商业化可用平台包括Miltenyi gentleMACS，它可以更有效和标准化的组织分离和均质化。

除了来自机械分解和酶消化的潜在加工产物外，任何给定的方法都可能导致对组织中实际细胞多样性的错误。举个例子，在我们之前的实验中，为了从动脉粥样硬化斑块中提取胆固醇含量高的泡沫巨噬细胞，需要用相对复杂的混合酶对组织进行过度消化。这种方法可以有效地恢复相关细胞，但其他细胞特别是动脉内皮细胞和平滑肌细胞，几乎一律不可恢复。用同样的消化方法检查动脉壁内的基质细胞会导致难以解释的低质量的转录组。

scRNA-seq方法需要加入高存活率(理想情况下为>95%)的细胞。死亡细胞可以通过基于磁柱的方法或流式细胞仪(FACS)分类来去除，这是一种免疫学家青睐的方法，用于从组织和器官中分离白细胞或其他感兴趣的细胞。流式细胞仪分选也可以用来缩小研究的细胞群scRNA-seq或散装RNA-seq。单细胞悬浮液在冰上进行抗体标记，经过多次缓冲洗涤，并通过分选机进行筛选。通过预分配来缩小种群可以提高细胞类型的分辨率，但代价是可能丢失新的细胞类型。

对于要用scRNA-seq方法分析的细胞，可以有不同的选择。选择来自复杂组织的细胞群体，举个例子，没有富集的动脉细胞，从动脉粥样硬化的主动脉表达CD45抗原的造血总细胞，或者特定的免疫细胞亚群。又例如，从转基因荧光报告基因小鼠中获得的调节性T细胞。使用FACS sorting的优点包括移除死亡细胞，以及将一个可行但相对罕见的种群或群体浓缩成一个单一样本的能力。还有例子比如，净化心脏白细胞是一个很艰难的过程并且只能提供很少的造血细胞。如果不进行分类，可能就没有足够的细胞来识别组织内巨噬细胞的多样性。然而，在FACS sorting过程中，高压、剪应力和渗透变化会导致细胞应激和基因表达的改变。为了避免这个问题，建议通过添加RNA聚合酶抑制剂来阻止细胞产生新的mRNA的能力。此外，较新一代的基于低压的细胞分类器，如MACSQuant Tyto，可能会减少这些问题。还有，更快和更少侵入性的细胞富集方法包括磁珠分离方法，其中使用抗体磁珠标记方法对感兴趣的细胞进行反向选择，通过从混合人群中移除其他细胞来富集感兴趣的细胞。

在某些情况下，不可能在不造成重大损害的情况下从组织中分离出活细胞。对于一些像移植这样需要等很长时间的过程中被分离出来的临床样本，这些样本之前已经被冷冻或在死后收集(如脑动脉瘤样本)，采用另一种被称为单核RNAseq (snRNA-seq)的分离方法可能是有帮助的。这种方法利用了细胞核在冻融循环过程中对降解的抵抗力，但在细胞核中可获得的mRNA数量是有限的。此外，snRNA-seq与CITE-seq不兼容，因此无法获得同时的蛋白表达信息。然而，比较分析表明，snRNA-seq可靠地复制整个细胞裂解物的转录组。

3.scRNA-SEQ方法

scRNA-seq指的是一类宽泛的实验技术和流程，每种技术和流程都有优缺点。根据需要的读数或资源的可用性，某些方法可能比其他方法更可取。主要的区别在于处理大量(数万)或少量(数百)细胞的能力。细胞数量增加的代价是单个细胞的读数深度降低，以及对剪接变体或表达亚型等mRNA细节的解码能力受损。但是，所有的方法都有一些通用的步骤。首先是分离单个细胞的能力(图1)，可以通过微流体室、纳米液滴或多孔板系统。生成文库需要裂解细胞，将RNA合成为cDNA，并且放大cDNA。由于细胞裂解后mRNA的降解和逆转录反应效率低下，只有10% - 20%的转录产物被合成为cDNA。由于扩增不均匀，到给定转录本的读数并不表示样本中转录本的数量。这个问题通过引入唯一分子标识符(unique molecular identifiers, UMIs)得以解决。UMIs计数与基因表达密切相关。最初，10×Genomics公司的scRNA-seq商业化平台允许捕获单个细胞转录本的10%以下，通过新的试剂和化学反应，这一比例显著提高到30%到32%。所有的样品都是经过新一代测序方法的处理。Illumina公司的HiSeq或NovaSeq也是最常用的平台。

图1. 单细胞图CITE-seq以及AB-seq的实验流程

3.1.Drop-seq

基于液滴(droplet)的测序方法，包括流行的10×Genomics 公司Chromium和Drop-seq方法以及其他方法，利用纳米液滴droplet形成，通过微流体墨盒将单个细胞放入油的培养基中，分离细胞进行微反应。目前这些方法是最高通量的，在一次运行中评估了数万个细胞。它们利用与单个转录本相关的UMIs。UMIs是附着在磁珠表面的分子条形码，用于识别细胞的每个转录本。一旦细胞被分解，样本库可以在多路复用后被合并。在一次运行中对多个样本进行多路复用和排序可以减少批处理效果。测序仅限于细胞条形码、多路复用标记、UMIs标记和可读的转录本的读取长度大小部分。与SMART-seq等全转录测序方法相比，这限制了在Drop-seq方法中检测许多剪接变异体的能力。这使得检测拼接变异体成为不可能。Drop-seq提供高通量但低读数深度。通常，每个单元获得4万到5万个读操作就足够。这种方法对于鉴别稀有细胞群和绘制整个器官的细胞多样性图是有用的。

3.2.SMART-seq

SMART-seq可以与index sorting或微流体平台(如Fluidigm C1)配对使用。Index sorting是一种基于流式细胞仪的方法，它将单个细胞分离成多个孔板，用于后续的单个细胞分析。Fluidigm C1是一个全自动的单细胞分离系统，包括一个用于细胞裂解、cDNA合成和标记程序的自动化平台。Fluidigm平台适用于通过成像、基因组DNA、表观遗传或微RNA丰度分析微流体腔内的表面蛋白表达。微流控室中细胞的分布比流式细胞术分选温和，对转录组的影响较小，但这种方法的代价是加样需要大量细胞。

使用细胞sorting或微流体平台分离单个细胞后，细胞被裂解，RNA在第一股cDNA合成后杂交到含有引物的寡核苷酸- dT中，充当条形码。这种方法的当前版本称为SMART-seq2，它优化了核酸连接方法以提高试剂盒的性能。然后对完整的cDNA转录本进行扩增和测序。这种方法需要读取深度超过每个细胞100 000次，并且可以检测到转录本中的异型变体甚至单核苷酸多态性。全序列分析提高了mRNA的敏感性，并为单个细胞提供了很大的深度。这是以低通量为代价的，每个细胞的成本高达50美元。SMART-seq3即将诞生;它以一种特定于等位基因的方式检测转录本，并提高了灵敏度，这可能导致每个细胞检测到的基因比目前的商业产品多出数千个。

3.3.BD Rhapsody

BD Rhapsody方法可以对数百个已知目标进行目标检测。几个基因panels就可利用。Rhapsody使用磁珠在微波中进行配对的条形码编码。磁珠和附着的mRNA被取回并合成为cDNA。然后使用针对感兴趣的特定基因的靶向引物扩增cDNA，并用文库索引条形码标记。然后对样本进行测序，并评估目标基因的表达。与其他方法相比，这种方法能够以更低的成本运行更多的细胞。Rhapsody与表面抗原的检测(通过AB-seq)兼容从而提供蛋白质信息。一种新开发的Rhapsody方法旨在提供完整的(非靶向的)转录组。

3.4.CITE-seq, Integrating Transcriptome 和Proteomics

CITE-seq与scRNA-seq通过连接在抗体偶联物上的寡核苷酸条形码来检测表面抗原 (而不是分别使用荧光色或稀有金属的传统流式细胞术或CyTOF)。REAP-seq (RNA表达和蛋白质测序)是一种类似的方法，也已经开发了使用另一种方法将寡核苷酸探针偶联到抗体。寡核苷酸条形码可以在细胞群中进行富集，以帮助识别感兴趣的群体。典型的工作流如图1和图2所示。匹配的转录组和细胞表面表型信息被检索，这允许对细胞进行更细粒度的分析。2017年的第一份报告提供了单细胞转录组的信息，并同时评估了17个表面标记。BioLegend品牌的CITE-seq，称为Total-seq，使用poly(dT)寡核苷酸和Drop-seq方法，利用3 '或5 '测序。Fernandez等人最近使用21个表面标记物CITE-seq面板来描述人类动脉粥样硬化斑块中的白细胞异质性。抗体数量仅受制造商开发的oligo条形码数量的限制，并提供定制选项。因此，可以预见到抗体CITE-seq通道将在不久的将来得到大力发展。

4.实际问题

自2017年以来，scRNA-seq的成本大幅下降，但仍然限制了研究人员获得这项技术。scRNA-seq比批量RNAseq方法贵10倍到200倍。重复使用scRNA-seq样品稍微降低了实验成本，但最重要的是有助于样品之间的正常化和控制批处理效果。这些方法除了在细胞水平上利用分子条形码外，还在样品水平上利用分子条形码。这使得多个样本可以组合在同一通道上运行，这在收集样本量有限的临床样本或需要评估大量样本时尤为重要。一个有趣的新方法适用于scRNA-seq或snRNA-seq方法，即定位细胞膜上脂锚的DNA条形码，称为MULT-seq(Multiplexing using lipid-tagged indices)，这可能对样品条形码方法和细胞活力及内源性基因表达模式的鉴别特别有帮助。抗体介导的多重应用方法也被开发和改进，用于snRNA-seq分析。

scRNA-seq的局限性包括每个细胞可检测到的读数有限，通常比已分类细胞的批量RNA-seq的读数低10倍。大多数批量RNA-seq实验都是按照每个样本数百万次的读序列进行的。在scRNA-seq中，浅层测序方法被认为不能充分表达转录信息。更大的测序深度增加了可检测到的转录本的数量。然而，这并不是线性的，只是略微可扩展的，这意味着需要极大地增加测序深度来获取额外转录本的信息。在一定的测序深度，会发生测序饱和，这意味着不会检测到额外的唯一的转录本。

高通量scRNA-seq实验可用于揭示复杂组织在稳态或病理条件下的细胞异质性。一旦在一个细胞群中发现了不寻常的细胞亚群或转录组合，就可以确定该细胞群的细胞表面标记。随后，可以对该种群进行FACS sorting，并对其进行深体RNA-seq处理以获得更好的图像。这项研究最近被应用于动脉粥样硬化中的巨噬细胞。

5.测序后处理

大数据集的测序后处理需要大量的计算机资源和经验丰富的专家，这仍然是许多实验室进行scRNA-seq的限制因素(图2)。基于droplet液滴技术，在配对端测序后，得到2个 FASTQ文件。第一个包含细胞和UMI条形码，识别细胞来源，第二个包含序列和序列cDNA的质量分数。随后，reads被映射到目标物种的参考基因组/转录组。伪调整器代替传统调整器可以加速调整过程。在对比和量化后，基于droplet液滴技术在每个细胞条形码中产生一个大的检测基因表达矩阵。

不管scRNA-seq方法如何，经过过滤的计数矩阵都必须进行规范化、缩放和降维。由于scRNA-seq数据包含广泛且高度可变的数据，可视化需要降维方法来去除噪声和简化样本之间的变化。数十个或数百个基因之间的变异需要降维，以使显示更容易理解。其他的下游分析包括差异基因表达、途径/基因集富集、轨迹分析等。批量效应指的是细胞分离、RNA处理或其他实验之间的不想要的变化。批量效应使得从不同实验室或不同时间收集的转录组很难进行比较，可能还会大到完全掩盖数据中包含的生物信息。研究者已经提出了若干批处理校正算法来校批量效应，其中一些最初是为微阵列和批量RNA-seq设计的，而另一些则是专门为scRNA-seq设计的。通常在降维和聚类之前，对归一化数据进行批量效应校正。Combat和MNNCorrect通过直接纠正每个细胞中的基因表达来进行操作，而Seurat产生校正后的低维缩减，类似于主成分，用于聚类和可视化。BBKNN根据后续聚类和可视化的不同批次生成调整后的近邻图。其他批量校正算法被嵌入到专门为scRNA-seq分析设计的框架中。

图2. 单细胞CITE-seq和AB-seq的生物信息学分析流程

5.1.数据的Dropouts与Imputation

Dropouts是基因在一个细胞中呈现中等表达水平但在另一个细胞中未检测到表达。与批量方法相比，scRNA-seq数据的dropouts率要高得多，因为单个细胞中的起始核苷酸浓度是有限的。对于低表达的基因，可能在细胞中存在转录，也可能在任何时候都不存在。即使存在，也可能检测不到转录。如果测序深度不够，这种风险就会增加，从而产生错误的阴性结果。真实基因表达的缺失会导致有偏差的结果，可能需要从进一步的分析中移除细胞或样本。相反，细胞子集中类似的缺失可能会将它们聚集在同一簇中，产生假的表面细胞多样性。科学家已经开发了多种方法来解决这个问题和填补单细胞数据中的空白。根据所使用的基准和数据集，这些方法中的每一个都优于其他几个方法。从根本上说，这些方法可以用于计算所有的基因表达值(如MAGIC)或只计算缺失基因(如DrImpute)。RABBLE采用的另一种方法是试图从匹配的大量RNA-seq样本中借用信息，以限制估算，被认为是优于其他5个竞争平台的。值得注意的是，Andrews等人最近提出，归算可能对可视化和聚类有帮助，但当用于细胞类型标记和差异表达时，可能会引入假阳性。新的生物信息学工作流程允许规范和消除分子计数的技术变异，同时保留真正的生物变异。该方法不依赖于伪计数的加入、反演和对数变换，从而改进了对scRNA-seq数据的分析。

5.2.数据存储

通常，大多数研究人员将原始数据存入国家生物技术信息中心基因表达综合数据库(NCBI GEO)。下载NCBI GEO的原始数据可以使用免费的SRA工具包。一些课题组更喜欢在自己的网站上发布他们的数据，例如，Tabula Muris (https:// Tabula - Muris .ds.czbiohub.org/)和人类细胞图谱(https://data./)。其他存储库也可用，包括单细胞表达图谱(https://www./gxa/sc)或Pangloa数据库(https://)。在存储scRNA-seq数据时，重要的是至少要存储原始数据和准确、详细、完整的元数据文件。虽然NCBI GEO为研究人员提供了一个模板来填写与他们的数据相关的元数据信息，但是是否包含尽可能多的细节取决于研究人员。一些条目将有fastq的文件作为原始文件，而其他将有10×bams文件作为原始文件。补充数据在GEO中没有标准化，可以包含计数文件、标准表达式值、来自10×cell ranger管道的h5分子矩阵或以上所有内容。标准化和详细的数据沉积对重现性至关重要，特别是由于在单细胞研究中观察到的固有变异。在使用存储的数据时，确保正确处理数据是非常重要的，尤其是在集成多个数据集时。处理原始fastq数据可以避免许多潜在的错误来源。使用存储库的主要挑战是能够以一种尽可能保留生物信息的方式集成数据，同时减少不想要的变量。在开发用于集成不同数据集的工具，同时考虑潜在的批处理效果和避免混淆的实验设计方面。在集成数据集时，一个重要的考虑因素是拥有尽可能详细的完整元数据。此外，随着越来越多的数据集被生成，考虑硬件需求(即硬盘和计算核心)和软件需求(即用于预处理和分析这类数据的工具和包)的扩展也是很重要的。

6.无监督聚类算法和机器学习

使用无偏倚的计算方法已成为数据分析的主要方法。最流行的算法是Louvain，它是一种基于图表的共享检测方法。无监督聚类算法通过算法对数据进行排序，可以避免分析偏差。这些不偏倚的分析方法已经证明，在不同的实验室中，利用这种方法可以复制在标本中发现的独特的细胞群。以不偏倚的方式确定集群之间的边界仍然具有挑战性。研究人员根据先前的知识或系统命名约定来确定或命名集群，通常必须选择集群解决方案:利用这个参数可以将类似的集群合并成一个更大的集群，或者将一个更大的集群分割成更小的在转录上不同的集群。虽然选择这个参数不是一件简单的事情，但是好的实践需要通过诸如FACS等基于蛋白质的方法来确认转录多样性的细胞簇。此外，研究表明集群并不总是局限于单个细胞类型。最好的例子就是增殖细胞，它们共享一个特殊的转录谱。因此，尽管它们属于不同的细胞类型，但它们仍然聚集在一起。包括scmap和SingleR在内的生物信息学新工具正在帮助调用细胞簇。这两种方法都依赖于参考数据。它们会自动选择一组基因来识别特定的细胞类型。然而，这两种算法都容易出现错误分类，特别是异常细胞或病理条件下获得的细胞可能含有异源转录组。

6.1.分析工具

到目前为止，已有可用的scRNA-seq分析包近500个。在分析过程中，细胞RNA含量是细胞状态的重要指标。然而，像胚胎发育这样的动态过程不能用静态方法来处理。克服scRNA-seq的静态特性的方法包括在处理之前可以用脉冲化的核苷酸类似物，在单个细胞内追踪新表达的RNA的时间分辨率，称为scSLAM-seq。通过分析未剪接和剪接的mRNA，可以预测RNA的速度(代表时间分辨的转录组状态)。换句话说，考虑到未剪接的mRNA尚未在细胞内处理和表达，RNA速度可以预测细胞未来的状态。Monocle允许通过伪时间排序对单细胞进行无监督轨迹分析。monocle的第二个版本是一种基于反向图嵌入和简约主图的机器学习技术，它可以用于所有scRNA-seq数据集，并且不需要输入关于单元命运或分支点的信息。monocle2包中提供的另一个算法是Census。该算法将单个细胞中每千碱基/每百万读的片段/每百万读的转录本中的基因表达值转换为相对的转录计数，而不需要插入标准或UMIs。进一步有用的分析工具使研究人员不仅可以研究细胞的不同转录特征，而且可以研究它们的调控网络(SCENIC)及其通过配体受体关系(CellPhoneDB, NicheNet)的潜在相互作用。

6.2.Multiomics方法

单细胞平台分析的下一步涉及到更广泛的多组学方法，如使用亚硫酸氢盐转换测序或TAB-seq进行DNA甲基化，使用非编码RNA，使用ATAC-Seq进行染色质可及性分析，使用染色质沉淀测序进行组蛋白修饰，以及使用CITE-seq(也称为AB-seq)进行蛋白质表达水平分析。将这些数据与不断变化的生物信息学方法相结合，可以进行更强大的分析。例如，表达的数量性状位点可以帮助识别与目标相关的潜在调控网络。

目前所有的scRNA-seq方法都需要准备单细胞悬浮液，这将导致给定组织中细胞类型的空间信息完全丢失。有一些有限的变通方法，如静脉注射抗体来标记血管内细胞。新的方法旨在全面检索空间信息。最近的出版物介绍了两种新的方法，seqFISH+和Slide-seq，它们可以在大量RNA探针上进行近单细胞分辨率的转录本原位空间识别。10×Genomics公司提供了一个商业上可用的解决方案称为Visium，它可以整个转录组检测，但不是单细胞分辨率的。Cartana提供基于原位测序的产品。该技术允许在单细胞浓度里重复检测组织切片中超过100个基因。在seqFISH+中，组织切片用转录特异性探针孵育，探针中包含一个复合序列，该序列连接到氟铬上的寡核苷酸。关键是3个不同荧光色的多路复用和多轮杂交，允许在每轮成像多个转录本。每个杂交轮的图像被生物信息学地解析在一起;在一个复杂的组织中已经检测到10000个转录本。另一种方法是在功能化的玻璃载玻片上发现条形码，然后对其进行排序，以确定磁珠的区域，并建立载玻片上发现的条形码地图。然后将组织切片与功能化载玻片孵育，释放RNA，与斑点条带编码的寡核苷酸杂交，并进行测序。然而，这种方法不能提供真正的单细胞分辨率，因为来自>1细胞的RNA可能杂交到每个点。新的技术已经实现了记录检测分辨率为100μm2(10×10μm)。

6.3.单细胞方法学的未来

创建商业化可利用的scRNA-seq平台才4年时间，CITE-seq和AB-seq只是多重组学方法的开始，高空间分辨和高通量方法即将开展。scRNA-seq方法正在应用于高通量的化学筛选，以评估个体运行中的数十万个细胞，从而从大规模的药理学单细胞中获得分子方面的信息。与将单细胞分选到单孔的先期相比，单细胞的成本已经降低了100多倍。其敏感性正在改善，但仍不令人满意。研究者迫切需要去除低质量的转录组、双重态和死亡细胞的标准方案。虽然存在着大量的归算和批量效应消除软件程序，但是对于哪些程序应该被使用还没有一个统一的认识。另一个重要的方向是对不同实验室、供体、批次、单细胞平台甚至物种之间的单细胞数据进行整合和比较分析。这些方法的目标是识别不同scRNA-seq样本中常见的细胞类型/状态，同时对不想要的变量进行降维和聚类。如今，scRNA-seq最大的瓶颈是测序后的生物信息分析，未来的战略将致力于创建用户友好的数据分析接口、数据库和标准文件格式，以简化分析和数据共享。作者希望有方法和算法来识别可能的调控因子、关键转录因子和表观遗传数据。transposase accessible chromatin (ATAC-Seq) 是定位开放性染色质的方法，已经在10x Genomics公司中被应用。基于scRNA-Seq数据的细胞类型调用和表型关联可以使用关联规则挖掘或其他基于规则的机器学习技术。

以CITE-seq或AB-seq为例的单细胞RNA-seq是一种功能强大的方法学，这种方法学用于发现细胞类型、谱系关系、动态平衡、发育和疾病研究。单细胞RNA测序正在探索动脉粥样硬化的发生、发展、消退、斑块破裂等心血管研究领域的复杂细胞类型相互作用，为动脉粥样硬化制定新的治疗策略。

2 重磅综述 | Cell：非编码RNAs在肿瘤学中的作用（IF=36.216）