【原】纵论空间转录组前世今生

健明 2021-07-15

展开全文

男，

一个长大了才会遇到的帅哥，

稳健，潇洒，大方，靠谱。

一段生信缘，一棵技能树。

生信技能树核心成员，单细胞天地特约撰稿人，简书创作者，单细胞数据科学家。

近年来，空间基因表达技术得到了迅速的发展，其中最成熟的商业化平台是来自10X Genomics的Visium，它们允许我们在形态学背景下进行基因表达谱分析。空间转录组被Nature杂志评为2020年度技术，一时间风光无两。其实回顾起来，我们对生物体内空间或原位信息上的痴迷一点也不亚于对宇宙的好奇。技术允许的早期我们就开始这样做了。

去年就有注意到加州理工（Caltech）大学Lambda Moses和Lior Pachter老师在写的在线电子书：Museum of Spatial Transcriptomics（2020-12-1）。书中把空间转录组技术分为前传时代（Prequel era）和当下时代（Current era），从技术应用，数据分析，数据库等方面进行了系统的文献分析，为我们展开空间转录组技术发展的历史画卷。本文就是在本书的基础上整理而来，我们感兴趣的问题有：

空间转录组技术为什么会分为两个时代？
在早期它是什么样子的？
两个时代一脉相承的东西是什么？
当下的我们如何应用空间转录组技术？
我们对空间转录组技术有着怎样的期待？

前传时代

广义地说，同时获得位置信息和转录组信息的技术都可以叫做空间转录组。可以看到，20世纪90年代后期，一些关于空间转录组学的文章从激光捕获显微解剖(LCM)、微阵列或RNA-seq和单分子荧光原位杂交(smFISH)开始了空间转录组学的发展历史。20世纪80年代的一些技术，虽然现在并不称为“空间转录组学”，但它也是在空间中获得转录信息，因此在书中进行了综述，并将这部分称为“前传”。因为它的起源早于 laser-capture microdissection （LCM）微阵列。其次，与现有的空间转录组学研究所涵盖的大多数技术不同，所使用的技术不是多路的，也不是定量的，因此在空间转录组学研究中已经不再受欢迎。相比之下，在“前传”之后的的技术将被称为“当前时代”。更具体地说，“前传”是更广泛的定义为方法，满足更广义的“空间转录组”定义，但不涉及芯片技术和下一代测序(NGS)或单分子成像技术。

我们看到前传时代的技术为我们刻画了空间转录组的一般技术特点：成像，定位，表达量。当然我也看到前传时代的空间转录一直在努力的一个方向是成像和单细胞（分辨率），而表达量往往不是高通量获得的。下面是前传时代的技术特点，研究物种的频率，所形成的的空间数据库，数据分析方法，所用到的算法以及式微的可能原因：

很多当时的技术已经成了过眼云烟，加之当时科学传播（商业化）较低，很多技术还没有走出其研发单位。所做的物种我们当然是感兴趣的，我们看到以小鼠为主，总的趋势和现在的单细胞趋势一致。数据库这块当然是生物资源，现在有的数据库还在维护着。值得关注的是数据分析这个模块，我们看到当时的技术条件下针对空间数据提出的生物学问题对目前做空转依然是有借鉴意义的，可以说虽然技术进步了，生物学问题是相对保守的。算法层面我们也看到，前传时代也做了许多有益的尝试，甚至可以说是为当下时代提供了参考。而式微原因这一块，作者也总结了，除了分辨率，易操作性，可用的软件，丰富的文档都是那时候所没有的。关键是基于NGS的高通量表达量的获取，在前传时代中是没有的，所以适合做机理研究。至于前传时代和当下时代比较，下文会有介绍。

当下时代

当前时代延续了前传时代的许多生物学问题，如在空间上绘制转录组图谱，识别受限表达的基因，对基因表达模式进行分类，为模型系统建立参考基因表达图谱以及根据基因表达推断解剖区域。虽然前传时代也试图识别细胞类型标记，但这已被非空间转录组学取代，它已被用于识别标记基因染色。虽然当前的空间转录组学在某种程度上借鉴了前传时代的方法，但是一般为当前空转是对体微阵列或RNA-seq的改进。如果非要有个节点的话，我们不妨把1999年出现的microarray 技术作为当前高通量空转的起点。下图是当前时代主要的空间转录组技术发展时间线：

我们依然关心当前时代的空间转录组技术发展特点，数据分析方法以及应用场景。我们看到承接两个时代的除了一些技术的运用，主要的还是如前所述生物学问题。空间转录组被Nature杂志评为2020年度技术，而根据书中的统计2019年空转技术有九种，而2020年是十四种。如果说单细胞技术是微流控的杰作，那么也可以说微阵列给空转带来了第二次生命。基于目前高通量技术的空转数据库还很少，可见空转尚处于数据积累阶段，我们不敢预言它会像单细胞数据那样呈指数增长，但是在可见的未来里空转数据一定是上升的。与此同时，我们也看到得益于开源生态的发展，特别是学术文章可以共享 code and data之后，每一篇文章都可以说是一个小数据库，而且code 为一般用户提供了探索数据的可能。我们看到，2020年针对空转已经发表十几种分析工具，这也扩展了科研人员的分析思路。

当然，我们看到空转在数据分析上与单细胞转录组是有相似的地方的：就基因表达谱这一块。有了空间信息之后，特别是在加入计算机，图像处理，空间统计知识之后，空转所能提出和回答的问题也多了起来，如导图中羞涩的粉色背景所示的分析点。值得一提的是，书中也对目前主流的空间转录组分析R包python库等进行了分类和比较，这对我们数据分析过程中分析工具的选择是有指导意义的。

两个时代一个梦想

探索高分辨率的空间转录组并不是什么新鲜事。早在上世纪80年代末和90年代，广泛的多细胞生物基因组测序之前，它就已经在增强器（enhancer ）和基因诱捕器（gene trap screens ）筛选中应用了。然而，前传时代由于技术的挑战使得对空间转录组进行分析的梦想难以实现，因为这些技术不是高度多元的，也不是精确定量的。30多年后的今天，高分辨率空间组学的梦想似乎越来越触手可及了，虽然依然有一些需要注意的地方。

我们之所以能走到今天，是因为自2010年以来各种各样的想法和技术汇聚在一起。如果没有参考基因组序列，高度多路复用smFISH不可能一次捕获10000个基因，没有关于基因组和转录组的信息，探针的设计也不会如现在这般方便。有一系列技术使得高通量空间转录组成为可能：smFISH，共焦显微镜，数码摄影，组合条形码，以及较高的计算能力来存储和处理图像。如果没有微阵列技术、针对每个位点的少量RNA的scRNA-seq技术、NGS和处理数据的计算能力，ST和Visium就不可能实现。这些组合里面有的技术出现较早，有的出现较晚，没有前传时代的一些技术，当下的技术也不可能如此完善。例如，如果没有20世纪70年代末和80年代非放射性（non-radioactive ）FISH 的发展以及合成荧光团标记探针的技术，smFISH就不可能出现。空间转录组学领域自2010年代末以来发展迅猛，正是这些技术链条汇聚在一起的合力。

空间转录组学面临的主要挑战。

首先，仍然存在数量和质量之间的权衡。

ST和Visium的分辨率有限，检测效率低，但更容易应用于大面积的组织和全转录组。ISS已经被应用于整个小鼠大脑切片，因为尽管它的检测效率低于smFISH，但放大的、不那么密集的信号可以在较低的放大率下检测到。相比之下，基于smFISH的技术具有亚细胞分辨率，拥有超过80%的检测效率，但当应用于10000个基因时效率会降低，而且更难应用于更大的组织区域。由于仍然存在挑战，收集数据的新技术也在不断发展。

第二，与前传时代相比，当下时代空转技术更加精细化。

虽然商业化的LCM、ST和Visium已经传播得非常广泛，但基于smFISH的各种高质量技术大多未能走出研发实验室。这可能是由于构建自定义细胞的困难以及针对不同组织定制统一操作规程的挑战，或有基因和细胞数量的限制，也有部分是因为缺乏统一的、开源的和文档化的软件平台来处理数据。其实个性化和普适性本身就是一种矛盾。

算法与工具

从21世纪初的PCA和ICA到深度神经网络，空间数据分析取得了长足的进步。许多起源于其他领域的想法，如计算机视觉、机器学习和统计，包括地理空间统计，已经被采用。来自计算机视觉的思想包括SIFT, NMF, CNN，以及某种程度上的PCA和ICA。机器学习的思想包括支持向量机、神经网络、词袋（bag of words）、变分自编码器(用于某些潜在空间的情况)、混合专家模型、k最近邻和聚类。来自统计的思想包括CCA、置换检验、MCMC、因子分析、广义线性模型和层次建模。地理空间统计的思想包括高斯过程模型(通常用于kriging)、空间点过程和MRF。其他观点包括拉普拉斯积分和最优传输（optimal transport）。可以想象，空间转录组学可以引入更多的观点。例如，时空统计可以用于分析同一组织的多个切片对齐，以解决z轴与x轴和y轴之间协方差的差异。地理空间统计中已有的方法，如半变异函数、J函数、G函数和其他点过程模型也可以引入。可见，空间组学面向其他学科，给出了广泛的接口。这时候，我们可以说自己的征途是星辰大海了。

书中回顾了许多不同类型的数据分析工具。然而，像Seurat这样的整合分析工具箱在空间转录组学方面仍然不成熟，它只支持最基本的探索性数据分析。我们仍然需要学习不同的语言/工具，并将数据转换为不同的格式，以使用许多其他更专业和更高级的工具，而其中许多工具并没有很好的文档。

得益于开源文化的蓬勃发展。大多数当前时代的数据分析出版物都有code and data，而大多数前传时代发表的文章都没有给出数据分析代码的链接（当时也没有代码池可以存放代码）。虽然专有的MATLAB语言仍然在使用，但大多数当前时代的文献使用的是R, Python, c++，在某些情况下是Julia和Rust，这些都是开源和免费的。开源软件和自由获取的数据使得个人和机构能够低成本地执行数据分析并开发新的数据分析工具。以前重复一篇CNS的分析，需要看懂作者的思路，现在只需要会配置代码环境。这也大大降低了学习门槛，加速了技术普及和商业推广。

未来可期

空间转录组学的理想未来是什么样的？我们不妨来畅想一番：

数据采集将具有亚细胞分辨率，具有广泛的转录组范围，具有接近100%的检测效率，并可在3D范围内扩展到大面积组织。更好的是，它是多组学的，不仅分析转录组，还分析表观基因组、蛋白质组、代谢组等，与其他组学具有同样高的质量和通量。

此外，包括数据收集在内的空间技术会很容易使用，比如使用方便、价格低廉的工具，因此它可以广泛地传播到非一般院校。它应该也是开源和透明的，这样其他人就更容易改进它。一如旧时王谢堂前燕，飞入寻常百姓家。每个分析点也会有基准测试，而且方便用户调节，就像dynverse 在scRNA-seq拟时间分析中的角色一样。这将有利于普通用户选择工具以及开发人员来比较他们的新方法。

未来的空间数据分析是怎样的呢？

数据分析对于不同的数据类型有相同的用户友好界面，对于相同的任务有不同的实现方法。此外，这个工具应该是模块化的，插件只有在需要时才安装。它还应该是可扩展的，这样用户就可以为现有的任务添加额外的模块或额外的工具到集成的本框架中。这与SeuratWrappers类似，Seurat提供了数据集成和RNA velocity 方法的接口，而这些方法不是由Seurat实现的。或者像caret 和tidymodels，它们为许多机器学习方法提供了统一的用户界面。这可以通过诸如Bioconductor所使用的指导方针来实现，鼓励开发人员重用Bioconductor中现有的数据结构和方法，而不是重复发明轮子。

此外，分析工具还应该是高效的、可扩展的、文档良好的、开源的、易于测试的、易于安装的、可移植的，同样，在某种程度上Bioconductor指南也要求开发者这样做。它应该用易于阅读的代码实现，这样开发人员就可以更容易地修复bug和改进。我们还期望，它是可互操作的，这样就可以集成用不同编程语言编写的工具，以结合它们的优点，并在编程语言社区之间架起文化差异的桥梁。它应该具有优雅的数据可视化功能，并以交互式的形式用于数据探索和共享。数据可视化也应该是可访问的，例如使用冗余编码和对色盲友好的调色板，并为那些视力受损的人提供替代方案。最后，它应该与图形用户界面(GUI)集成，如iSee，这样分析结果就可以与不编程的同事共享。

Museum of Spatial Transcriptomics 一书中盛赞了开源精神，本书也是免费的，地址见所附的第一条链接：

References

[1] https:///lambdamoses/museumst/
[2] https://github.com/lmweber/OSTA-base
[3] https://github.com/drighelli/SpatialAnalysisWorkflows
[4] Method of the Year: spatially resolved transcriptomics
[5] 机器学习中的Optimal Transport及相关问题：（二）计算方法
[6] Spatially Resolved Transcriptomes—Next Generation Tools for Tissue Exploration
[7] Computational methods for single-cell omics across modalities
[8] Profiling chromatin regulatory landscape: insights into the development of ChIP-seq and ATAC-seq
[9] Spatial transcriptomics:paving the way for tissue-level systems biology