【原】这些软件让单细胞测序分析越来越Easy

解螺旋 2020-08-27

展开全文

作者：Jeffrey M. Perkel

编译：麦子

转载请注明：解螺旋·临床医生科研成长平台

单细胞生物学成了时下热门话题，这其中最前沿的便是单细胞RNA测序（scRNA-Seq）。

传统的“大量细胞（bulk）”RNA测序法是一次处理成千上万个细胞，然后抹平它们之间的差异。但世上没有两个相同的细胞，而scRNA-seq可以找出造成各细胞差异的那些微妙改变。它甚至能定义全新的细胞类型。

比如说来自博大研究所的Aviv Regev和她的同事们，在运用scRNA-seq检测了约2400个免疫系统细胞后，发现一些树突细胞能刺激T细胞活化。

A.-C. Villani et al. Science 356, eaah4573; 2017.

最近Regev接受了Nature的专访，说疫苗刺激了这些细胞则有潜力激发免疫系统，预防癌症。

这些发现是来之不易的。操纵单个细胞比操纵千军万马难多了，又由于每个细胞只能得到一小丢丢RNA，所以误差必须控制得很小。还有个问题就是处理其生成的磅礴数据——不仅仅是因为工具反直觉。

一个典型的RNA-seq数据的分析方法，是要辛辛苦苦在Unix操作系统上输入命令行。数据文件从一个软件包流转到另一个包，每个包执行一个步骤：比对，质控，识别变异，等等。

这个过程很复杂。但要是大量细胞测序呢，至少每个步骤用哪种算法，以及如何运用，都是有业内共识的。于是就形成了“流水线”，哪怕不是即插即用，至少对非专业人士来说也是温顺驯服的。英国癌症研究所的计算生物学家Aaron Lun说，要分析基因表达的差异，大量细胞RNA-seq的问题早就解决了。

scRNA-seq就不是这样，研究者们还在研究他们拿到数据后可以做些什么，以及哪种算法最有用。

但也涌现了一批网络在线资源和工具，能够使scRNA-seq的数据分析更容易。在GitHub的一个叫“Awesome Single Cell”的页面上，整理了70多种工具和资源，涵盖分析过程的每一个步骤。华盛顿大学的生物学家Cole Trapnell说，这个领域已经孵化出了一个计算生物学工具的小产业村。

https://github.com/seandavi/awesome-single-cell

单细胞分析工具的发展史

夏威夷大学的生物信息学家lana Garmire在去年发表的一篇综述中列举了scRNA-seq数据分析的基本步骤和48种工具。

O. B. Poirion et al. Front. Genet. 7, 163; 2016.

她说，虽然每个实验都是独特的，但大多数分析流水线还是依据一样的步骤来清洗、筛选测序数据，找出是哪个转录本在表达，还要校正扩增造成的差异。研究者们会继续跑一个或多个后续分析，来检测亚组和其他功能。

威斯康星大学的生物统计学家Christina Kendziorski说，在许多情况下，大量细胞RNA-seq所用的工具对scRNA-seq也还适用。但数据上的根本差异意味着，这并不是永远都行得通。Lun说，有一点值得注意，单细胞数据的噪点更多。处理这一小丢丢RNA，扩增和捕获时失之毫厘，便会在细胞之间谬以千里，日复一日，最后玩的就不是生物了。

所以研究者们必须警惕“批处理效应”，不是同一天处理的细胞看起来很有个性，可能只是纯粹的技术原因造成的，还有那些“漏网之鱼”——在细胞中明明表达了的基因，测序数据中却没有捞到。

悉尼张任谦心脏研究所的生物信息学家Joshua Ho说，还有一个挑战是规模。一个典型的大量细胞RNA-seq实验通常收纳少数样本，但scRNA-seq则一来就是好几千。原来那些处理几十个样本的工具塞给它十倍百倍的数据量，处理速度就成了龟爬。

哪怕是像怎么制备细胞才算好这样看起来很简单的问题，放到scRNA-seq领域也会变复杂。Lun的工作流程是先假设大多数细胞都有近似等量的RNA丰度。他说，“可是这个假设未必就是真的。”比如，初始T细胞，尚未被抗原激活时相对静态，它的mRNA相对其他免疫细胞就比较少，在分析时可能就会被移除，因为程序认为没有足够的RNA可以处理。

也许最重要的一点是，用scRNA-seq做研究的人，问的问题都跟做大量细胞RNA分析的不一样。大量细胞分析一般研究两种或以上的干预方法中，基因表达有什么不同。但跟单细胞玩耍的研究者的目标则是鉴定新的细胞类型或状态，或重建细胞发育通路。Lun说，“因为目标不一样，则必然要用到不同的工具来分析数据。”

比如单细胞分析的一个常见方法就是降维处理。这是将数据简单化，以便鉴别相似的细胞。如英国剑桥的威康信托桑格研究所的计算生物学家Martin Hemberg所说，在scRNA-seq数据中，每个细胞都是由2万个基因表达值组成的表单（list）。降维算法，如主成分分析（PCA）和t分布随机邻域嵌入（t-SNE），可以有效把数据变成二维或三维图形，使相似细胞的聚类特征更明显。

另一个常用的方法是伪时间分析法（pseudo-time analysis）。2014年Trapnell开发了第一个运行这个算法的工具，叫Monocle。他说这个软件是运用机器学习，从一个scRNA-seq实验推测细胞分化过程中伴随的有基因表达改变的序列，就像从竞走比赛的航拍照片推测比赛路线。

其他工具则用于检测亚组（比如波士顿哈佛大学医学院的Peter Kharchenko开发的Pagoda），还有空间定位，即利用组织中基因表达分布的数据，了解每个转录组都在组织的哪些地方出没。纽约基因组中心的Rahul Satija是Regev的博士后，他就为此开发了一个叫Seurat的R语言包。他说Seurat是利用数据把细胞在三维空间中定位为一个点，这就是它的名字Seurat的由来，那些数据画成的点看起来像一幅点彩派画作。

左：画家Seurat的作品 | 右：R包Seurat的作品（Nature Biotechnology. 2015; 33, 495–502.）

尽管这些工具都是为某个特定目的开发的，但通常也都包含多种功能。就说Seurat吧，除了上述的空间定位，还配备了细胞亚组分析的功能，那是Regev的组用来鉴定新的免疫细胞类型所需要的。

大多数scRNA-seq工具都是Unix程序或R语言包，但相对来说还是很少有生物学家喜欢使用这些开发环境，加州大学圣迭戈分校的生物信息学家Gene Yeo说，就算喜欢，也可能没时间下载并配置好运行所需的一切。

于是有人开发了一些开袋即食型（原谅吃货小编想不到更贴切的形容词）工具。另外还有一些端对端的作图工具，包括FlowJo的SeqGeq商业程序包，还有一组开源的网页工具：Garmire组开发的Granatum（拉丁文：石榴），还有瑞士联邦理工学院的生物工程师Bart Deplancke实验室的ASAP（the Automated Single-cell Analysis Pipeline）。

http:///granatum/code

ASAP和Granatum都是用网页浏览器来呈现相对简单、互动的工作流程，让研究者们能用图形方式来探索自己的数据。用户上传数据，软件就依流程一步步运行。

还是ASAP画风最正 | https://asap./

对ASAP来说，就是带着数据过一遍预处理、可视化、聚类、差异基因表达分析；Granatum还包括伪时间分析，并整合了蛋白质相互作用数据。

Garmire和Deplancke都说，ASAP和Granatum的设计是为了让研究者和计算生物学家能够好好合作。夏威夷大学的博士生、Granatum的开发组组长Xun Zhu说，研究者们曾经以为生物信息学家是有魔力的生灵，拿到数据魔杖一挥就能生成结果。现在他们也可以参与进来，调整一下参数就行，这很好。

工具虽好，还要谨慎选择

这些工具当然也不是各种情况下都完美。比如一个擅长鉴定细胞类型的工具，用来做伪时间分析可能就笨手笨脚。再说了，最合适的方法也是由每个数据集来决定的，加州大学伯克利分校的生物统计学家Sandrine Dudoit说，这些方法和参数的调整要能解释不同的变量，比如测序长度。

但英国癌症研究所的John Marioni说，不要一切都指望流水线。“就像卫星导航让你往河里开车，你还真开进去啊？”

新手尤其要谨慎。生物信息学工具几乎总是能给你找到一个答案，问题是，这个答案真的有意义吗？Dudoit的建议是做些探索性分析，再核查一下你选的那个算法所基于的假设是否能说明问题。

Satija说，有些分析任务还是面临很多挑战的，包括比较不同实验条件下或不同有机体之间的数据集，还有整合不同组学的数据。他还表示，Seurat正在计划中的更新版本就要解决第一个问题。

但现在也已经有足够多的工具让研究者们使用了。Kendziorski建议感兴趣的人自己多多挖掘。每一个新工具都能揭开生物学的一层面纱，只要你留意科学进展，明辨是非。

原文：

http://www./news/single-cell-sequencing-made-simple-1.22233