分享

将数据插补和降噪整合成一张超图,华人团队开发3D基因组分析模型,超图表示学习的应用有哪些?丨专访

 生辉 2021-11-22

在细胞核中,染色质中的 DNA 链总长度约为 2 米,它们无法以直线形式存储,往往以特定的形式折叠成比较复杂的三维结构。解析染色质的三维结构有助于进一步阐明其基因调控、染色体形态变化和基因组稳定性等功能。

研究染色质空间结构的技术多种多样,其中单细胞精度的染色质构象捕获技术(scHi-C)凭借能够分辨单个染色体的构象模型,并阐明染色体的相互作用以及基因组功能的调控机制等优势,在一众技术中慢慢凸显。因此,scHi-C 有望发展成为了解析三维基因组的一个重要研究方向

然而,现实是,scHi-C 收集的生物数据通常噪音比较高、数据比较稀疏,无法鲁棒地捕捉三维基因组特征。从 scHi-C 现有的问题出发,美国卡内基・梅隆大学(CMU)计算机学院的计算生物学团队提出了一个全新的超图表征学习模型(hypergraph representation learning)——Higashi。这项研究已于近日发表在 Nature Biotechnology 上。

(来源:Nature Biotechnology

张若弛告诉生辉,Higashi 的独特之处在于将整个数据建模成一张超图,这样能够描述出更高维度的交互关系,可以识别单个细胞中的多维度 3D 基因组特征,并且细胞之间也可以同时共享交互信息。而此前常用的作法是把针对 Hi-C 开发的算法应用到 scHi-C 领域中,也就是常常会把每个细胞核内的染色体结构建模成一个个单独的图。(注:Hi-C:通过大量群体细胞获得平均数据来评估染色体折叠和潜在相互作用的方法。)

他继续补充,Higashi 的重大意义还在于能够分析和处理数据量不断增加的 scHi-C 数据,并应用于研究更复杂的组织和生物过程。这是迄今为止最系统化的算法,不仅能够提升数据的整体质量,同时还能够发现染色体三维结构的动态变化过程,及其对染色体各种生物功能的影响。

张若弛是这项研究的第一作者,第二作者是博士研究生周天茗,他们均师从 CMU 计算机学院计算生物系 Ray and Stephanie Lane 讲席教授马坚。张若弛的研究兴趣是开发图表示学习技术(Graph Representation Learning),然后用这些方法研究三维基因组数据;马坚是本项研究的通讯作者,他实验室的研究方向是开发人类基因组结构和功能的算法,重点是核基因组组织、基因调控、调控网络和单细胞生物学等。

图丨张若弛(来源:受访者提供)

此项研究工作属于美国国家卫生署(NIH)的 4D Nucleome 计划中的一个中心,该中心由 CMU 马坚实验室主导,为期 5 年,整个中心获得了 1000 多万美元的资金支持。该中心的宗旨在于阐释细胞核的 3D 结构以及该结构的变化如何影响机体内细胞的功能。

把 scHi-C 数据抽象成一张超图

“我认为,算法开发的关键在于找到一个非常有意义、有价值的生物问题。然后,从这个问题出发,把生物问题抽象成一种计算问题,通过分析数据确定合适的建模方法。” 张若弛说。

通过对 scHi-C 数据与传统生物数据进行比较,张若弛发现这类数据的不同之处在于对细胞的研究可以精确到单细胞维度,而此前的数据为细胞群的 Hi-C,获得的信息也是很多细胞叠加在一起的数据总和。

针对这一维度,该团队开发出了一种新深度学习模型 Higashi—— 这是一种基于超图表示学习开发的一种多维度综合分析 scHi-C 数据的计算模型。它可以利用单个细胞之间潜在的相关性来增强接触图(contact maps)的整体插补。

图 | 分析 scHi-C 的 Higashi 框架简述:Higashi 共由 5 个部分组成,第一部分是把 scHi-C 数据建模成超图,在超图里边,每个细胞和每个 DNA 片段被分别表示为细胞节点和 DNA 节点。然后单细胞接触图中的每一个非零条目都被建模为连接相应细胞和特定染色质相互作用的两个基因组位点的超边,把学习 scHi-C 的向量和插补数据整合在一起;第二部分是基于超图训练超图神经网络 (NN);第三部分是从训练好的超图神经网络中提取细胞节点的嵌入向量,用于下游任务分析;第四部分是利用超图 NN 来插补 scHi-C 接触图;第五部分是通过计算方法分析 3D 基因组间细胞 - 细胞异质性及其在基因转录中的意义。(来源:上述论文)

具体来说,scHi-C 包括很多单细胞,每个单细胞会捕捉细胞内 DNA 与 DNA 相互作用关系。Higashi 的关键算法设计在于将 scHi-C 数据中多个单细胞核中 DNA 与 DNA 相互作用关系转换为一张超图,保留了 scHi-C 接触图的单细胞分辨率以及 3D 基因组特点。

张若弛解释道,超图表示学习算法通常要完成两个任务,一是学习超图中的每个节点的嵌入向量,二是预测超边。在建模时,他们把每个细胞或者每条染色体中的一段 DNA 表示成一个点(node),把捕捉到 DNA 之间的相互关系表征成一条超边(hyperedge),对 scHi-C 的嵌入向量学习问题和数据插补问题转换成了学习超图内点的嵌入向量和超边的预测问题。

“鉴于 scHi-C 数据的稀疏性,之前的常见分析方法是先插补数据补全接触图,然后再去学习嵌入向量。Higashi 将这两个任务整合到一个框架里完成,两个任务可以相互共享信息,相互迭代,极大提升数据质量。基于生物数据质量的提升,我们可以更精准、更稳定分析染色质结构特征,相比于现有的 scHi-C 数据方法有着很大的提升。” 张若弛总结道。

他还指出,未来会产生越来越多的 scHi-C 数据,特别是针对有着复杂细胞组成的组织,或者是来自某种疾病患者的 scHi-C 数据。Higashi 能帮助研究人员更好得刻画细胞类型,发现与基因表达等生物功能相关的细胞类型特异性三维基因结构,进而辅助科研人员揭示分化、疾病形成等复杂生物过程中背后的机理。

已开发一系列深度学习模型

自 2017 年加入马坚课题组以来,张若弛开发出了一系列以甜点命名的深度学习算法模型 ——MOCHI、MATCHA 以及 Higashi 等。

MOCHI 是该团队针对异质网络(Heterogeneous network)找寻局部异质网络簇(Heterogeneous Interactome Module,HIM)的算法。2020 年 2 月,作为封面文章发表在 Genome Research 期刊上,张若弛是这项研究的共同一作。

MOCHI 算法的设计灵感来源于计算机科学家 Jure Leskovec 开发的研究大型社交和信息网络的算法,比如说 Facebook。通过改进这类算法,他们设计出了一种新算法 —— 能够识别 DNA 和蛋白质相互连接成的细胞核内功能区,并分析细胞核中的复杂网络。这就把分析细胞核内不同功能区相互关系的生物学问题,转化为了确定和研究社交网络中的不同社区及其相互关系的问题。

图 | MOCHI 算法工作流程和 HIMs 的输出示例(来源:Genome Research

“MOCHI 算法的突破性在于整合了染色质交互网络和基因调控网络,并通过找寻异质网络簇来更好地研究三维基因组的结构和功能,特别是细胞核内不同组件之间相互作用的潜在模式。这可能为研究转录调控和 3D 基因组组织间的相互作用关系提供新的思路。” 张若弛总结道。

时隔 3 个月后,该团队推出了基于超图表示学习探索多路染色质相互作用的 MATCHA 算法,张若弛也是该研究的第一作者。在超图神经网络的基础上,他们开发了 mix-n-match autoencoder(混搭自编码器)来使得神经网络提取的不同染色体特征具有更强的可泛化性。该团队还开发了基于 bloom filter(布隆滤波器)数据结构的负样本采样技术,增强了 MATCHA 算法对于所研究的生物问题的可扩展性 (scalability)。

(来源:Cell Systems

研究指出,MATCHA 可以改善多路染色质相互作用数据的分析,并有可能为高阶染色体组织和功能提供独特的见解。比如说,该算法有潜力应用于在细胞核内染色质高维交互数据 SPRITE / ChIA-Drop 的降噪和特征提取。

随着生物数据的不断更新,处理数据的深度模型算法也在随之迭代更新。上文提到的 Higashi 是该团队分析和处理 scHi-C 数据的最新研究成果,他们将 scHi-C 数据表示为超图,并将 scHi-C 的嵌入、降噪问题纳入同一个体系。这对于单细胞 Hi-C 的数据分析,单细胞三维基因组学特征刻画,并揭示其与生物功能的连续有着重要意义。

超图表示学习的应用方向有哪些?

“无论是图表示学习还是超图表示学习,本质上都是研究事物之间关系的一种建模手段。” 张若弛说,该团队开发的计算模型许多都基于超图表示学习或者超图神经网络。

通常来讲,普通图有点和边,每条边连接两个点,表示点和点之间的关系,而超图里面是点和超边(hyperedge),每条超边可以同时连接超过两个点。

这就好比普通图描述的是人和人之间的关系,超图不仅仅描述人与人之间的关系,还可以描述一个人与一群人的关系,能够描述出更高维度、更高层次的关系。

(来源:Wikipedia)

张若弛认为,超图表示学习应用场景广泛,凡是高维度交互关系的数据都可以应用。当需要描述超过两种事物或者关系,利用超图表示学习可以更明确、更精确检测分析多种相互关系。我们现在已经尝试把超图表示学习应用于处理 scHi-C 数据,和研究多个 DNA 同时交互。

另外,该团队认为超图表示学习可以用于处理很多生物问题,不仅仅局限于染色体三维结构。比如说,超图表示学习很适合用于描述化学反应,包括多种分子同时产生化学反应、蛋白质复合体形成等等。

“我认为,在每一个具体的细分领域,都会有超图表示学习的应用场景。比如说,超图表示学习对于描述分子间化学反应具有优势,很有潜力应用于新药研发领域。” 张若弛说。

-End-


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多