分享

探索生命的遗传语言

 智能人做超人 2020-02-05

        生命是大自然的伟大创造物。在宇宙中,地球享有一种得天独厚的条件,使有机物经过亿万年的演化而“结晶”成生命。生物的基本特征是以遗传作为维系纽带的个体发育与种群进化的世代递进。而支配和联接这些基本特征的要素则是遗传信息。它将漫长的进化过程完整地记录在DNA序列的信息文库之中,以后再通过信息中心法则在不同水平上调控与表达的交互作用中展开生命的历程。

        1953年Watson和Crick天才地提出的双螺旋模型,开创了分子生物学,同时也开创了在分子水平上的生命信息科学。稍后就导致了氨基酸三联密码的破译,从而使人们形成一个基本共识:生命运动形态中信息与支撑信息运动的物质(即生物大分子)的生化过程与物理作用对理解生命的本质是极其重要的。这里可能集中了生命的基本奥秘。

        为了探索生命的奥秘。与时俱来,人类在战后的和平发展时期至80年代逐步发现人类自身面临许多生存难题,如癌症、艾滋病以及其它在分子水平上的遗传性疾病,连同人口增长、粮食、环境污染等一系列重大的与生物科学有关的问题。促使人类科学前进的视线聚焦在生物科学这一焦点上。在80年代末,美国国立卫生研究院(NIH)率先部署了《人工基因组作图和测序》的重大科学行动。它选择人种交流宁静地区的染色体为基本素材,投资数十亿美元,以完成测出人的基因组DNA约3x10^9的碱基对的顺序。

        这是继曼哈顿原子弹与阿波罗登月两大计划之后,人类第三个庞大的科学研究计划。这个巨大的科学计划也引起了全世界包括我国在内的科学家热烈与友好的响应,预计在本世纪与下世纪交替前后,一本由自然力巨手,用四个字母AGCT写成的、长达数百万页的“天书”将呈现在世界科学家面前。这个难题就是人类如何读懂我们自身的生命的教科书。如果说生命的奥秘记录在DNA信息档案中,那么遗传是对高等生物双亲的信息档案作主相似混写,发育是根据混写好的档案作调控表达生成个体,最后进化则是物种群信息档案的集合或系综在时间轴上有方向的变化和演进。遗传、发育、进化三者统一在信息与支撑信息运动的生物分子的生化过程水平上,来回答生命的基本规律。

        这似乎是一个包罗万象的难题,人类将通过漫长而艰难的道路去逐步解决它。目前还只能先验地设想一些可能需要研究的层面,这些层面大致包括理清和辨识基因组信息要素或形态,分析归纳信息要素的结构。抽象概括信息的规则或遗传语言,以至从生化或物理作用去解决它的语义。最后还要用实验去验证这些信息规则的正确性。首先,了解这些信息的基本入门步骤是识别和分析基因序列的功能位点,确定在个体发育中,剪切、编辑、加工,在空间上整合装配这些生长程序的信息元素,同时掌握在时间上的启动子、终止子、增强子等这些时间上顺序控制元件的信息形态。对这些生物生长发育的元件的信息要素的识别只是一个基本层面,另一方面信息档案中序列的多重(种内与种间)联配,无论整体或局部的,都将给出物种的同源与进化的知识,而遗传信息流“中心法则”的表现规则的掌握将不仅深化已知的三联密码,而更重要的是可窥探表达发育的空间密码。一般地高等生物基因序列分为外显子与内含子,外显子在翻译成蛋白质氨基酸序列时,像包含着“数据类信息”;而内含子则可能包含“程序类信息”,在调控、整合、转录、表达中可能起更重要的未知作用。

        “数据类信息”与“程序类信息”均作为软体与硬体统一固化在外显子与内含子之中。弄清调节基因、操纵基因尤其是内含子的起源与生物学意义,从而弄清占90%以上的人类基因组中尚未了解的基因片断,达到与生物结构中的经济原理相协调。这是对信息元素的结构研究的关键。语言是信息研究中更高的形式与概括,它可以揭示信息交流的基本规律。人类迄今为止运用了两种语言,一种是人类社会信息交流的自然语言,另一种是计算机及其网络中的程序语言,这两种语言的形式规则都处在乔姆斯基(Chomsky)的四个文法阶层内,但有差别。怎样从数理上来发现这种差别呢?科学家已将人类的文学著作如莎士比亚的喜剧,托尔斯泰的《战争与和平》等十来部名著的语言代码换成01序列。同样也将计算机的高级程序语言,如Fortran、Basic、C、Pascal等编译成机器语言的01序列。数字实验发现二者的01序列的长程关联不同,前者远低于后者。相似的检验在外显子与内含子进行,同样发现前者远低于后者占。美国物理学评论通讯和英国自然杂志都讨论了这一有趣的结果,这向人们暗示在基因序列中可能隐藏着某种语言的规则性。

        实际上RNA的二级结构将服从Dyck文法,而赝结则是服从非Dyck而超越上下文元关的语言。DNA的结存在是平凡的,假定RNA有真正的结(knot)则它将是多态广义非Dyck语言。在蛋白质方面,对其结构文法的认识还比较肤浅。就组装语言而论,如不考虑蛋白质有双螺旋的话,它仍然是平凡的线性语言。当然RNA的结构语言与它编码的蛋白质的结构语言,可能有一种句法指导下的对应关系,这对于认识中心法则中信息的翻译过程是极为有益的。

        基因序列的形式语言的研究将是对遗传规律本质抽象的一个侧面。因为信息码是语句的唯一因子化。语言的破译直接与码的破译紧密联系。但更重要的一个侧面是遗传语言的语义诠释。这需要紧密寻找支撑信息规则的物质运动规律。抽象而论,我们的观点是:生物可能是一种以发育生物个体为目的“计算机”,软件与硬件溶混在一起。它以生物大分子为元件,以生化过程与物理作用为逻辑工作着。“计算”过程极为复杂,但计算机速度在宏观意义上是极为快速的。一般在毫秒的量级上下将可以完成很多令人惊奇的优化组合。不久前科学家设想用DNA双链配对原理,可以构造DNA生物计算机,在原则上,生化计算机可以轻易解决电子计算机感到艰难的NP问题。这从另一个侧面支持遗传信息中生化过程有“计算”本质。生物的高等性或复杂性将反映在这个生物“计算机”的“计算复杂度”中。

        这个难题既然是人类自己认真提出来的跨世纪的难题,一定将成为下世纪全体自然科学家联盟携手共同奋斗的目标。这将需要生物学、物理学、化学、数学、计算机科学、信息与控制论科学、复杂系统与非线性科学,以至逻辑学与语言学协同努力、相互渗透、边缘交叉、协同前进。人们将通过信息与物质两方面的研究最终地解决这个难题。

整理不易,欢迎打赏

彭守礼,云南大学非线性复杂系统中心主任,物理学教授,中国高等科学技术中心协联成员,美国物理学会及美国工业与应用数学会成员。1988年至1992年间先后在美国乔治亚洲理工学院物理系与华盛顿国家实验室等处进行访问研究。在美约四年间,主要从事非线性复杂系统的动力学、计算机算法复杂性、量子混沌、分形与系统复杂度等研究。有学术论文50多篇。曾发现拓扑熵魔梯等重要现象。

参考书目

本书编写组. 21世纪100个科学难题[M]. 吉林人民出版社, 1998.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多