解读人类基因的百科全书

向春阁 2012-11-10

展开全文

解读人类基因的百科全书

日期：2012-09-27 作者：张文韬来源：文汇报

解读人类基因的百科全书

　　在过去5年中，欧洲分子生物学实验室的计算生物学家尤恩·伯尼和同事们为“DNA元件百科全书”(ENCODE)计划收集了大量的基因组数据，最近他准备把这些数据打印出来。然而，要找个可以放置这份打印文件的地方可不容易。即便每平方厘米能容纳1000对碱基，但文件还是高达16米，至少30公里长。

ENCODE：志在“荒漠”垦荒

　　当人类基因组计划完成之后，尽管科学家为揭示人类生物学蓝图作出了巨大的努力，但很快便意识到，读取这份蓝图的“操作手册”还很粗略。研究人员可以确定，30亿对碱基中有很多蛋白质编码区，大约2万个基因，仅占整个基因组的不到1%，这仅仅是在一大片未知领域中识别出一些稍稍熟悉一点的对象而已。很多生物学家甚至怀疑，真正体现人类遗传的完美和复杂性的精华部分，可能正隐藏在基因之间那些未探索的“荒漠”之中。于2003年启动的ENCODE计划，正是为探索这片“荒漠”而建立起的一个巨大的数据收集工程，其目标是为潜伏在“荒漠”中的那些“功能性”基因序列编制目录，了解它们位于哪些细胞中、何时被激活，而基因组又是如何被合成、调节和读取的。

　　目前，研究已经接近尾声，《自然》等杂志公开发表的30篇论文，已经确认大约80%的基因组都具备某种特定功能，包括约7万个“启动子”区域（位于基因上游），负责蛋白质绑定并执行基因表达的位点；约40万个“增强子”，负责基因的调节和表达。

　　伯尼在ENCODE计划中负责协调数据分析，他表示ENCODE计划的工作远未完成。他说，一些绘制基因图谱的工作还在进行中，而对于基因组到底能做些什么及进一步的深度特性分析，才仅仅完成10%。而正在执行的第三阶段计划，将最终完成阅读人类基因的指导手册，并提供更多的细节描述。

　　许多人已经从人类基因库的巨大数据流中获益，并被其巨大的前景所鼓舞。ENCODE计划点亮了人类基因研究的黑暗角落，为进一步理解基因变异是如何影响人类遗传缺陷和疾病而创造新的机遇。进一步探索项目中所揭示的神秘调节因子以及比对其他哺乳动物，一定会重塑人类关于自身进化的科学认知。

填补空白：抑或路途漫漫

　　ENCODE计划目前产生的数据正在帮助研究人员进一步了解疾病遗传学。从2005年开始，全基因组相关研究（GWAS）已经发现了数以千计的可能致病基因，而其中仅仅一个碱基的不同或变异就会导致疾病的风险。由于大约90%的此类变异都不是蛋白质编码基因，科学家目前对于它们是如何导致疾病的发生还没有任何线索。

　　ENCODE绘制的基因图谱揭示，多数遗传基因的致病区域包括“增强子”或其他功能序列。而细胞类型也非常重要。目前，牛津大学的计算生物学家克里斯领导的小组针对一些与系统性红斑狼疮高度相关的突变进行了研究，这种疾病往往导致患者的免疫系统主动攻击自体的正常组织。他们注意到，GWAS所发现的遗传变异倾向于分布在只有对免疫细胞才活跃的调节区域，但对其他类型的细胞并非如此，克里斯的博士后卢卡斯·沃德为此构建了一个HaploReg网页，旨在让研究人员比对GWAS和ENCODE数据之间存在的不同之处，并以系统的方式进行处理和显示。克里斯说：“非常感谢ENCODE计划，可以针对如此复杂的遗传疾病发起攻势，我们现在能够解析更为复杂的病症。”

　　对于已有的ENCODE数据，研究人员还要花费很多年对其进行研究。加州大学圣克鲁兹分校网站上展示出ENCODE计划的进展，其中一个表格显示了目前24种实验所获得的进展，差不多180种细胞已被测定。这只是九牛一毛，包括实验室里常用的HeLa和GM12878细胞研究得比较完整，可这仅仅是针对少数细胞系进行的检测。至于其他部分，也就仅仅完成了一次实验而已。

　　ENCODE计划前期工作估计花费了5500万美元，扩大规模后投入大约是1.3亿美元，美国国立人类基因组研究所为下一阶段募集的资金为1.23亿美元。

　　耶鲁大学计算生物学家马克·格斯坦说，人类花费大约半个世纪才从获知DNA是人类的遗传物质进展到人类基因组测序，你一定可以想象，真正理解并掌握基因组将成为本世纪或下世纪的一项重中之重的大科学工程。

　　（张文韬编译）