分享

研究“基因调控”也得学好数学才行

 阿里山图书馆 2019-04-12

理论上讲,基因组蕴含了物种组成成分、成分之间的相互作用、以及系统层面正常运作的全部知识,这些知识是通过基因及其调控机制来存储的,即分子生物学的中心法则指出的从 DNA 编码基因到 RNA 再到蛋白质的遗传信息的流动方向。每个细胞都有一套完整的基因调控系统,用来保持体内代谢过程的正常状态、适应多变的环境、防止生命活动中的有害后果、产生细胞周期特异性和对外界信号响应的特异性。所以基因调控涉及了发育、分子生物学、遗传学、进化和生理等诸多领域。著名的 C 值悖论,即基因组的大小和生物的复杂程度不相关的一系列现象,主要就是用基因调控的复杂性来解释的。人的基因组只有25000个基因,远远小于以前的预期,更为惊人的是,人的基因数目和线虫这样的低等动物相差无几。目前普遍的观点认为像线虫这样的低等动物,每个基因只有一两个调控区,而人的基因则可以有多达几十个调控区,导致表达模式的组合比线虫多很多倍,从而搭出人如此复杂的生物系统。

用数学语言刻画,“基因调控网络”就是以基因为节点、基因之间调控作用为边建立的生物分子网络。这里的调控作用指的并不是两段基因之间的物理相互联系,而是一种间接通过 RNA 、蛋白质、代谢物实现的调控作用。它是系统生物学里的研究热点,强调以网络、相互作用、动态行为等整体论观点,并结合数据整合的观点对复杂生命现象进行理解和诠释。

半个世纪以来,基因调控的 DNA 序列层面和蛋白质层次从物理、生化角度得到广泛关注,借助基因芯片技术和转录组测序技术,众多研究者可以在对细胞扰动后在相对很少的时间点上取得对基因表达丰度的观测数据,然后设计微分方程、概率图、布尔网络等数学模型和算法,在反问题的框架下推断基因调控网络,取得了巨大的成功。然而在基因调控与环境等外部因素交互等研究方面遇到了困难。因此,近年来位于中间层面的表观编码特别是染色质可及性、组蛋白修饰和甲基化状态得到密切关注,并形成遗传学中的一个前沿领域:表观遗传学。其重点研究基因的 DNA 序列在没有发生改变的情况下,基因功能发生了可遗传的变化,并最终导致表型的变化。有越来越多研究表明,染色体状态从表观遗传学层面为基因调控的研究注入了新的元素,同时也开辟出新途径。

以染色质上基因的调控元件的可及性状态为核心,中国科学院数学与系统科学研究院王勇研究员与美国斯坦福大学王永雄授、清华大学自动化系江瑞副教授开展合作,梳理出了几个核心问题,即染色质调控元件开放状态参与基因表达调控的机理;调控元件的上游调控因子是什么?受这些功能区域调控的下游基因是什么?如何集成调控元件上下游的定量信息揭示基因调控机理? 他们对两种最容易获取的全基因组测序数据,即基因表达数据和染色质可及性数据,进行联合的统计建模。提出的了 PECA 模型(Paired Expression and Chromatin Accessibility modeling),可以阐明基因选择性表达所依赖的调控元件及其相互作用的分子机制。当这两种数据在同一种细胞类型都被测定时,表达数据可以提供基因调控后果的信息(哪个基因的表达被提升或降低了?),而染色质可及性数据可以提供这些调控在基因组哪些位置发生的信息(通过哪些调控元件如何调控?)。对这两种数据的系统集成建模,可以充分揭示精细的分子调控机理。对 ENCODE 数据库中小鼠跨组织匹配数据进行的初步研究表明, PECA 模型给出的组织特异基因调控网络可以用来注释非编码区域调控元件,从而对非编码区域的突变与表型之间的联系从分子机理上给出解释。可以期待在不久的将来,很多人都会有自身的全基因组测序数据, PECA 可以用来注释人与人之间的几百万个基因组上特定位置的不同(点突变和结构变异等基因组变异)的调控机理,这将是一个有着非常重要意义的应用。

引入调控元件的状态到基因表达的定量研究,通过构建基因调控网络来探索表观遗传与遗传因素互作机理,极大地扩展了传统基因调控网络的概念。发表于《国家科学评论》的综述文章介绍了这一方面的最新进展,具体的数学模型和算法近期发表在《美国科学院院刊》上。

来源:中国科学院数学与系统科学研究院

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多