分享

用数学诠释生命——当今生物信息与计算生物学回顾(一)

 funson 2009-06-20
用数学诠释生命——当今生物信息与计算生物学回顾(一)
 


李小凡
Xiaofan Li
Cambridge Computational Biology Institute (CCBI)
Department of Applied Mathematics and Theoretical Physics (DAMTP), University of Cambridge, CB3 0WA, United Kingdom

本文接受任何形式的转载和转发,但请保留文章标题和内容的完整性以及作者署名信息

从数学第一次尝试介入解决分子生物学问题开始算起,至今已经有大概四分之一个世纪了。所以,所谓 “生物信息学” 和其近亲“计算生物学”,并不是如人们想象的那样新兴。在上世纪 70 年代,已经开始出现针对核苷酸序列比对算法的研究,其基础就直接来自于计算机算法研究的发展-动态规划 (Dynamic programming),即在两个长度为 N 和 M 的序列正交形成的 N x M 的矩阵中,对每一个元素 (i,j) 根据某种机制打分,并在打好分的 N x M 中寻找一条自左上至右下得分之和为最小的路径,即最短路径,又即最佳比对方案。值得一提的是,动态规划并不只适用于序列对比,用递归算法实现动态规划的思想,最初就是用来解决诸如 Travelling Salesman, 背包问题及其派生出的优化问题的。

自 80 年代开始,序列信息开始成倍的增长,因为测序技术在这个时间得到了相当大的发展。另一方面,计算机的计算和存储能力在这 10 年内迅速提高,给各种数学理论在分子生物学中的应用奠定了硬件基础。毕竟,生物的复杂度要远远超过自然,用笔来计算生物学中的规律,是绝无可能的(这也是 19 世纪末 20 世纪初理论物理和如今“理论生物学”的显著区别之一)。生物系统是非线性的,随机的,这就决定了数学在生物学中的介入,以数值问题和随机过程为主;而在其他学科,如微观经济和理论物理中的数学,往往是分析问题。对于依赖数值解,时间复杂度又相当高的问题,使用计算机是唯一的解决方案。真正意义上的生物信息学和计算生物学,就基本上在此时诞生了。另一方面,分子生物学上取得的进展,尤其是用于测定蛋白质 3D 结构的 X 射线晶体分析 (X-ray crystallography) 和核磁共振 (Nuclear Magnetic Resonance, NMR) 技术的进步,使得生物学者对蛋白质结构和其序列之间的关系有了更加清晰的印象。而蛋白质结构域又往往与其生理功能相适应,这就给分子生物学中的几大类研究建立了联系,即功能研究依赖于结构研究,结构研究又依赖于针对蛋白质序列的分析。再加上 Watson-Crick 中心法则,使蛋白质序列与基因序列相关,就形成了研究生物学“主流”问题的一整套体系。虽然依据这种思路的实验方法在 80 年代就已经相对完善,但直到以随机过程和概率论为先锋的数学开始介入其中之后,这个体系的内在联系与规律才开始被真正揭示出来。所谓“生物信息学”和“计算生物学”,实际上应当归纳为“理论生物学”。不过,理论生物学一词目前还较少提及,因为直至今日,在生物学研究里,仍然缺少严密、规范、完整的理论体系。但是,从彼时起,我们至少已经开始在正确的道路上前行。

时至 90 年代,个人计算机性能的再一次爆棚,使得处理生物学中复杂序列问题的金钱和时间成本又一次大大降低,许多原先由于过于复杂而不可实现的算法,在快速 CPU 和大容量内存的支持下得以轻松运行。最显著的例子就是 BLAST 算法与序列数据库在过去 15 年中的“协同进化”。BLAST (Myers & Miller, 1990) 是动态规划解决序列问题最著名的一个实现版本,派生出无数应用,如位于 NCBI 基于 GenBank/UniProt 的各种 BLAST 搜索引擎,又如各种独立的 BLAST 小程序等。在生物信息学刚开始为普通大众所知的年代里,BLAST 与 NCBI 几乎成了该学科的代名词,以至于很多人(包括相当多的生物学家)认为,生物信息学就是测序,BLAST, 测序,BLAST, 测序,BLAST! 诚然,90 年代对这个领域来说,是数据爆增的时代,因此针对数据存储和直接搜索的应用显得尤为重要,如各种各样的数据搜索工具和序列比对程序。另一个所谓生物信息学程序包,EMBOSS,在这个时代也逐渐被丰富和完善。EMBOSS 由很多小程序组成,每个程序能根据给定的一个序列计算这个序列的某一个属性,如计算 GC 含量,寻找 CpG 岛,预测内含子剪接位点,等等。这些应用也确实属于生物信息学范畴,但是在如今的观点看来,只能说是相当基础的应用了。实际上,这些小程序只是手工处理序列信息的自动化版本,他们除了作为“计算器”给分子生物学家提供了更快获得序列某种属性的途径之外,并没有产生更多的价值,也没能将生物信息学从“工具”转化为独立的研究方向。

生物信息学真正作为一门独立而有重要作用的学科,始于其计算生物学分支在 90 年代的发展。不同于广为人知的 DNA 和基因,这个分支是从研究蛋白质 3D 结构开始发展的,即从结构生物学入手。在相当长的一段时间内,甚至直到今天,许多生物学者理解的结构生物学,就是指用 X 射线晶体分析和核磁共振 (NMR) 测定蛋白质结构,这也是多数结构生物学实验室如今仍然在做的事情。用于储存这些测定好的结构的数据库,PDB (http://www.), 至今已有数万条记录。对于某些热点蛋白质,PDB 里往往会有不同实验室在不同时间用不同方法测定结构而提交的不同记录,比较这些记录的共同点与差异,往往会有对于这个结构本身相当重要的发现。另一方面,虽然蛋白质结构测定技术与 70 年代已不可同日而语,但结构的测定速度永远赶不上测序的速度,也就造成了 PDB 的记录在 GenBank 和 UniProt 中的对应序列记录占序列总数的百分比反而越来越少。这就使得人们开始考虑,是否能通过已知的结构和序列,通过归纳某种方法,能够根据测序结果推知未知蛋白的结构?我们可以假设这个方法为 f, 已知序列为 x_0, 对应的已知结构为 y_0. 我们希望能从 y_0 = f(x_0) 中归纳出 f, 从而求出对任意 x 的 f(x),即对应任意既有序列的结构。从数学的角度看,这是一个非线性分类问题;用计算机科学的语言来说,这是一个模式识别问题;用人工智能和机器学习领域的观点,这是一个分类器的学习问题。客观的说,直到今天,人们仍然没有找到这样一个精确的 f, 也没能发明某种方法完全实现 f 的功能,但迄今为止所有在数学、计算机及机器学习领域里的成果,都已经在蛋白质结构预测中有所尝试,包括简单的非线性函数,主成分分析 (Principal component analysis, PCA),模拟退火算法 (Simulated annealing),遗传/进化算法 (Genetic/evolutionary algorithm),神经网络 (Artificial neural networks, ANNs),随机概率论模型如隐 Markov 模型 (Hidden Markov models, HMMs),Bayesian 推断网络 (Bayesian inference networks) 等。其他非学习手段,包括来自分子力学和动力学的蛋白质折叠模拟,以及对于构象的立体几何排列研究等,也被用来参与预测蛋白质结构的研究。在如今的研究中,这些方法都是混合使用的,虽然如上所言,人们并没有得出一个一揽子解决方案,但是在不断尝试各种方法的过程中,对蛋白质从线性多肽到完整功能构象的折叠过程,已经有了越来越深的认识。值得指出的是,来自于序列领域的知识,如序列中的特征片段 (Motif) 识别,二级结构元件预测,以及更大的结构域同源性的发现,是进行结构研究的重要组成部分,也正是藉于此,传统生物信息学和传统计算生物学在 90 年代找到了结合点,形成了不可割裂的一门学科,开始向理论生物学发展。

2000 年,生物信息界最广为人知的进展即为人类基因组测序完成,23 条染色体共 3Gb 碱基对的序列。这是一项规模宏大的基础工程,给今后的所有领域的生物研究产生了深远影响,但却被当时的非专业决策者和普通大众过高得估计了其“市场价值”。因此,当所谓的“生物科技泡沫”与“互联网泡沫”都随着 NASDAQ 重挫而消失殆尽时,人们才开始重新严肃、谨慎的审视基因组,序列和生物信息学。人类基因组计划在生物研究上的重要贡献,除了 3Gb 的数据本身之外,更重要的是建立了一种以序列为基础的研究方向和方法。从此之后,几乎每一个生物学者都开始习惯在基因库中寻找序列上的同源信息以获得有关自己研究对象的更多信息,或者干脆直接从序列开始,做蛋白结构和功能分析。随着人们测完了这个生物界相对较大的基因组,测序技术本身也得到了非常快的发展,钱海战术和人海战术并用,在接下来的几年内使 GenBank 的数据水涨船高,至 05 年 8 月达到了 100Gb,实在不能不说是一次卓有成效的“大跃进”。核苷酸序列数据达到这个水平,也就从侧面表明了,一个基因在基因库中的丰度,已经能在数据库中初步的表达出来。搜索一些热点基因,可以在库中得到上百个同源结果,这为比较研究——也就是最简单的“找规律破译密码”逻辑——提供了足够多相似而不相同的研究样本。

当然,测序得出的基于 EST 片段的基因组序列,其直接生物学价值是很小的,更重要的工作是基因注释 (Gene annotation),其内容就是将基因在大量的非基因序列中标记出来,并且正确分辨读码框 (Reading frame),内含子 (intron) 与外显子 (exon)。这又是一个复杂费时的工作,所幸仍然有政府背景的钱海支持,人类基因组的注释已经基本完毕,完全手工精确注释 (VEGA 项目, EBI, UK & NCBI, US) 也已经在一些重要染色体(如 Chr 6, 重要的免疫球蛋白家族 HLA, IG, 原癌基因 p53 等都在此)上完成。而对于其他还未分到一杯羹的已测序物种基因组,人们用一些效果相当不错的软件包去做基因发现,以及剪接位点预测等自动化工作 (HMMER @ Ensembl, EBI, UK),也取得了十分有效的成果。值得一提的是,这些软件包都是生物信息领域的重要成就;人们对算法性能提高的渴望,以及对学习算法精确率的狂热,永远没有止尽。遍览最近五年的生物信息期刊 (Bioinformatics, Oxford Journals; BMC Bioinformatics, BioMedCentral),关于比对性能,学习模型,性能评测方法,训练集测试集选择等等话题的讨论实在是数不胜数,使得这两本杂志有时候看起来更像某种数学期刊;不过,严肃的说,这也从侧面体现了,数学理论已经真正融入生物学研究中,并逐渐催化生物学从实验科学变成正规,系统的自然科学。在自然科学里,化学和物理学已经早先一个世纪完成了这种转变,在数学上得到统一;而生物学中的数学,除了种群生态学中的一些简单的模型,遗传学中用于计算基因频率的简单概率论,以及用于统计试验结果的检验工具 (误差,t-检验等等)之外,一直是个空白,或者说没有深入到生物的本质。而现在,基于对序列随机模型的研究,我们可以一步一步接近以随机过程为本源的生物学的数学核心。毕竟,有了数学,一门科学才有了灵魂,才可以称之为真正的科学。

关于 2000 年后计算生物学分支的发展,包括 Microarray 方面和蛋白质结构和相互作用方面的研究,以及系统生物学的发生,将在下回分解,谢谢大家收看,这次先讲到这里。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多