分享

这些软件让单细胞测序分析越来越Easy

 解螺旋 2020-08-27

作者:Jeffrey M. Perkel

编译:麦子

转载请注明:解螺旋·临床医生科研成长平台

单细胞生物学成了时下热门话题,这其中最前沿的便是单细胞RNA测序(scRNA-Seq)。

传统的“大量细胞(bulk)”RNA测序法是一次处理成千上万个细胞,然后抹平它们之间的差异。但世上没有两个相同的细胞,而scRNA-seq可以找出造成各细胞差异的那些微妙改变。它甚至能定义全新的细胞类型。

比如说来自博大研究所的Aviv Regev和她的同事们,在运用scRNA-seq检测了约2400个免疫系统细胞后,发现一些树突细胞能刺激T细胞活化。

A.-C. Villani et al. Science 356, eaah4573; 2017.

最近Regev接受了Nature的专访,说疫苗刺激了这些细胞则有潜力激发免疫系统,预防癌症。

这些发现是来之不易的。操纵单个细胞比操纵千军万马难多了,又由于每个细胞只能得到一小丢丢RNA,所以误差必须控制得很小。还有个问题就是处理其生成的磅礴数据——不仅仅是因为工具反直觉。

一个典型的RNA-seq数据的分析方法,是要辛辛苦苦在Unix操作系统上输入命令行。数据文件从一个软件包流转到另一个包,每个包执行一个步骤:比对,质控,识别变异,等等。

这个过程很复杂。但要是大量细胞测序呢,至少每个步骤用哪种算法,以及如何运用,都是有业内共识的。于是就形成了“流水线”,哪怕不是即插即用,至少对非专业人士来说也是温顺驯服的。英国癌症研究所的计算生物学家Aaron Lun说,要分析基因表达的差异,大量细胞RNA-seq的问题早就解决了。

scRNA-seq就不是这样,研究者们还在研究他们拿到数据后可以做些什么,以及哪种算法最有用。

但也涌现了一批网络在线资源和工具,能够使scRNA-seq的数据分析更容易。在GitHub的一个叫“Awesome Single Cell”的页面上,整理了70多种工具和资源,涵盖分析过程的每一个步骤。华盛顿大学的生物学家Cole Trapnell说,这个领域已经孵化出了一个计算生物学工具的小产业村。

https://github.com/seandavi/awesome-single-cell

单细胞分析工具的发展史

夏威夷大学的生物信息学家lana Garmire在去年发表的一篇综述中列举了scRNA-seq数据分析的基本步骤和48种工具。

O. B. Poirion et al. Front. Genet. 7, 163; 2016.

她说,虽然每个实验都是独特的,但大多数分析流水线还是依据一样的步骤来清洗、筛选测序数据,找出是哪个转录本在表达,还要校正扩增造成的差异。研究者们会继续跑一个或多个后续分析,来检测亚组和其他功能。

威斯康星大学的生物统计学家Christina Kendziorski说,在许多情况下,大量细胞RNA-seq所用的工具对scRNA-seq也还适用。但数据上的根本差异意味着,这并不是永远都行得通。Lun说,有一点值得注意,单细胞数据的噪点更多。处理这一小丢丢RNA,扩增和捕获时失之毫厘,便会在细胞之间谬以千里,日复一日,最后玩的就不是生物了。

所以研究者们必须警惕“批处理效应”,不是同一天处理的细胞看起来很有个性,可能只是纯粹的技术原因造成的,还有那些“漏网之鱼”——在细胞中明明表达了的基因,测序数据中却没有捞到。

悉尼张任谦心脏研究所的生物信息学家Joshua Ho说,还有一个挑战是规模。一个典型的大量细胞RNA-seq实验通常收纳少数样本,但scRNA-seq则一来就是好几千。原来那些处理几十个样本的工具塞给它十倍百倍的数据量,处理速度就成了龟爬。

哪怕是像怎么制备细胞才算好这样看起来很简单的问题,放到scRNA-seq领域也会变复杂。Lun的工作流程是先假设大多数细胞都有近似等量的RNA丰度。他说,“可是这个假设未必就是真的。”比如,初始T细胞,尚未被抗原激活时相对静态,它的mRNA相对其他免疫细胞就比较少,在分析时可能就会被移除,因为程序认为没有足够的RNA可以处理。

也许最重要的一点是,用scRNA-seq做研究的人,问的问题都跟做大量细胞RNA分析的不一样。大量细胞分析一般研究两种或以上的干预方法中,基因表达有什么不同。但跟单细胞玩耍的研究者的目标则是鉴定新的细胞类型或状态,或重建细胞发育通路。Lun说,“因为目标不一样,则必然要用到不同的工具来分析数据。”

比如单细胞分析的一个常见方法就是降维处理。这是将数据简单化,以便鉴别相似的细胞。如英国剑桥的威康信托桑格研究所的计算生物学家Martin Hemberg所说,在scRNA-seq数据中,每个细胞都是由2万个基因表达值组成的表单(list)。降维算法,如主成分分析(PCA)和t分布随机邻域嵌入(t-SNE),可以有效把数据变成二维或三维图形,使相似细胞的聚类特征更明显。

另一个常用的方法是伪时间分析法(pseudo-time analysis)。2014年Trapnell开发了第一个运行这个算法的工具,叫Monocle。他说这个软件是运用机器学习,从一个scRNA-seq实验推测细胞分化过程中伴随的有基因表达改变的序列,就像从竞走比赛的航拍照片推测比赛路线。

其他工具则用于检测亚组(比如波士顿哈佛大学医学院的Peter Kharchenko开发的Pagoda),还有空间定位,即利用组织中基因表达分布的数据,了解每个转录组都在组织的哪些地方出没。纽约基因组中心的Rahul Satija是Regev的博士后,他就为此开发了一个叫Seurat的R语言包。他说Seurat是利用数据把细胞在三维空间中定位为一个点,这就是它的名字Seurat的由来,那些数据画成的点看起来像一幅点彩派画作。

左:画家Seurat的作品 | 右:R包Seurat的作品(Nature Biotechnology. 2015; 33, 495–502.)

尽管这些工具都是为某个特定目的开发的,但通常也都包含多种功能。就说Seurat吧,除了上述的空间定位,还配备了细胞亚组分析的功能,那是Regev的组用来鉴定新的免疫细胞类型所需要的。

大多数scRNA-seq工具都是Unix程序或R语言包,但相对来说还是很少有生物学家喜欢使用这些开发环境,加州大学圣迭戈分校的生物信息学家Gene Yeo说,就算喜欢,也可能没时间下载并配置好运行所需的一切。

于是有人开发了一些开袋即食型(原谅吃货小编想不到更贴切的形容词)工具。另外还有一些端对端的作图工具,包括FlowJo的SeqGeq商业程序包,还有一组开源的网页工具:Garmire组开发的Granatum(拉丁文:石榴),还有瑞士联邦理工学院的生物工程师Bart Deplancke实验室的ASAP(the Automated Single-cell Analysis Pipeline)。

http:///granatum/code

ASAP和Granatum都是用网页浏览器来呈现相对简单、互动的工作流程,让研究者们能用图形方式来探索自己的数据。用户上传数据,软件就依流程一步步运行。

还是ASAP画风最正 | https://asap./

对ASAP来说,就是带着数据过一遍预处理、可视化、聚类、差异基因表达分析;Granatum还包括伪时间分析,并整合了蛋白质相互作用数据。

Garmire和Deplancke都说,ASAP和Granatum的设计是为了让研究者和计算生物学家能够好好合作。夏威夷大学的博士生、Granatum的开发组组长Xun Zhu说,研究者们曾经以为生物信息学家是有魔力的生灵,拿到数据魔杖一挥就能生成结果。现在他们也可以参与进来,调整一下参数就行,这很好。

工具虽好,还要谨慎选择

这些工具当然也不是各种情况下都完美。比如一个擅长鉴定细胞类型的工具,用来做伪时间分析可能就笨手笨脚。再说了,最合适的方法也是由每个数据集来决定的,加州大学伯克利分校的生物统计学家Sandrine Dudoit说,这些方法和参数的调整要能解释不同的变量,比如测序长度。

但英国癌症研究所的John Marioni说,不要一切都指望流水线。“就像卫星导航让你往河里开车,你还真开进去啊?”

新手尤其要谨慎。生物信息学工具几乎总是能给你找到一个答案,问题是,这个答案真的有意义吗?Dudoit的建议是做些探索性分析,再核查一下你选的那个算法所基于的假设是否能说明问题。

Satija说,有些分析任务还是面临很多挑战的,包括比较不同实验条件下或不同有机体之间的数据集,还有整合不同组学的数据。他还表示,Seurat正在计划中的更新版本就要解决第一个问题。

但现在也已经有足够多的工具让研究者们使用了。Kendziorski建议感兴趣的人自己多多挖掘。每一个新工具都能揭开生物学的一层面纱,只要你留意科学进展,明辨是非。

原文:

http://www./news/single-cell-sequencing-made-simple-1.22233

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多