分享

人类生命天书几近完美

 泥盆纪的鱼石螈 2018-04-27

    国际人类基因组计划合作组织在不久前出版的英国《自然》杂志上宣布,经过多国科学家近3年的精心“雕琢”,一张精度达99.999%、误差小于十万分之一的人类基因组完成图绘制完成,原本遗漏了15万个细节的人类生命天书已经几近完美。

新图与旧图

    1990年启动的人类基因组计划经过包括中国在内的多国科学家的10年努力,于2001年“大功告成”。2001年2月15日出版的英国《自然》杂志第409卷6822期以及2001年2月16日出版的美国《科学》杂志第291卷5507期,分别正式公布了人类基因组计划和塞莱拉遗传公司的人类基因组全序列数据,人类基因组草图诞生了。  

    根据草图,科学家分析得到的结果集中在以下几个方面:一是人类基因数量少得惊人。一些研究人员先前预测人类约有14万个基因,但此时的研究结果却大出所料,人类基因总数在2.6383万到3.9114万个之间,约3万个左右,只比果蝇多大约1.3万个基因。二是人类基因组中存在“热点”和大片“荒漠”。三是35.3%的基因组包含重复的序列,这意味着所有这些重复序列,即原来被认为的“垃圾DNA”应该被重新认识。四是地球上人与人之间99.99%的基因密码是相同的,人与人之间的变异仅为万分之一。  

    10月21日出版的《自然》杂志上,国际人类基因组测序委员会对已经完成的人类基因组序列给出了更为科学的陈述,将人类蛋白质编码基因的估计数目由原来的约35000个缩减到了20000至25000个,研究人员已经确定人类基因组中存在19599个蛋白质编码基因,并且还确定有另外的2188个DNA片断可能是蛋白质编码基因。人类基因数量如此之少,甚至与微小的开花植物拟南芥和小蠕虫的基因数量基本相同,这无疑对人类虚荣心是一次打击。在《自然》杂志的文章中,研究人员表示,这一人类基因组计划的精准结果为人类提供了最为清晰的人类基因组图谱,这一高精确度的人类基因组序列使全世界的研究人员能够更精确地对遗传信息以及它们对健康和疾病的影响进行研究。

鸟枪“不准”

    是什么原因导致了2001年的草图遗漏了15万个“细节”呢?很多科学家都把“矛头”指向了测序技术,美国科学家更是一针见血地指出,塞莱拉遗传公司董事长兼首席科学家克雷格·文特尔使用的,通常用于大片段脱氧核糖核酸(DNA)测序的“鸟枪法”存在缺陷,正是由于这种测序技术所带来的遗憾,使得2001年人类基因草图略显潦草。

    “鸟枪法”又称为“霰弹法”,是有着 “基因魔鬼”之称的文特尔发明的一种快速基因测序技术。塞莱拉遗传公司与公共测序领域的科学家在人类基因测序竞争中采用了不同的路线。前者使用的是“鸟枪法”,其特点是测序速度快,但后期需要大量的计算;后者使用的是基于BAC连续克隆系的测序法,简称克隆法,这种方法早期需要较多的时间用于克隆和草图绘制。这两种不同的技术路线,一方面丰富了测序方法,另一方面也提高了测序技术水平。  

    美国文特尔学会的3位科学家对“鸟枪法”进行了重新研究,其中两位曾经参与过该方法的开发。他们把利用“鸟枪法”绘制的人类基因组草图和最新公布的精图进行了对比,发现“鸟枪法”无法测到人类基因组中某些重复出现的DNA片段,这些片段占到基因组的3%至5%,而这些无法“覆盖”到的基因组对于理解遗传性疾病具有重要意义。  

    负责这项技术研究工作的埃万·艾希勒表示,尽管“鸟枪法”可能有时“打”得不太准,但这个缺陷并不能抹杀“鸟枪法”在快速基因测序中所发挥的重要作用,在进行快速DNA测序时,“鸟枪法”仍然不失为一种可取的手段。而最佳的DNA测序法是,将“克隆法”和“鸟枪法”两种测序方法相结合,用“鸟枪法”进行整体测序,对于“鸟枪法”无法测序的区域,再通过传统方法对这些区域测序。

速度过快

    除了测序技术之外,还有什么因素影响到了人类生命天书的精确呢?答案是:时间和速度。  

    人类基因组计划原定于2005年完成测序并向外界公布基本数据,然而,在1998年和2000年,人类基因组国际组织决定将原来确定的人类基因组测序工作完成时间提前到2001年6月。究其原因,一方面在于大规模测序技术的不断提高使基因组测序速度加快;另一方面就是私人公司加入到了人类基因组的测序行列,公私竞争“催化”了测序速度。  

    塞莱拉遗传公司董事长兼首席科学家克雷格·文特尔原本是参加人类基因组计划的科学家,由于在能否对基因进行专利申请方面与人类基因组的科学家们发生矛盾,他便于1998年5月另立门户,在美国的马里兰州罗克威尔组建了塞莱拉遗传公司进行基因测序。其目标也十分明确,与国际人类基因组计划展开竞争,投入3亿美元,到2001年绘制出完整的人体基因组图谱。  

    文特尔企图“垄断”基因的野心迅速遭到了世界各国政治家和科学家的强烈反对。有科学家一针见血地指出,“塞莱拉公司在基因组研究方面的‘欲望’助长了该公司与国际公共研究领域相悖的势头,这种做法无疑违背了世界上多数公众的利益,更妨碍了该领域科学的进步。”2000年3月14日,美国前总统克林顿和英国首相布莱尔联合发表声明支持基因组数据公开的政策,这一声明使得以塞莱拉公司为首的私营企业“垄断基因”的企图明显受挫。然而,基因的“公”、“私”之争并没有因此结束。  

    私营的塞莱拉遗传公司一问世便与国际人类基因组争抢进度,试图通过申请专利来获取利润,到2000年4月6日,塞莱拉遗传公司突然宣布已基本完成人类基因的全部测序工作,尽管这一结果遭到不少科学家的质疑,指出其是“有漏洞的”;但在这种形势下,国际人类基因组计划不得不把原定的时间再提前两年,但这个时间表仍然落后于塞莱拉遗传公司宣布的进度。  

    公私竞争大大加速了人类基因组测序工作,2000年6月26日,双方共同宣布绘制完成了人类基因组框架草图,但双方在时间与速度的竞争,使得第一次公布的人类基因组测序结果难以“十全十美”。此后,国际人类基因组计划合作组织立即启动了一项十分艰难、但非常必要的“纠错补漏”程序,用了3年的时间将草图一点点地丰满起来,那些令人头疼的缝隙也从原来的15万个减少到现在的341个。

“开始的结束”

    在公布了人类基因组精确图以后,科学家们似乎并不为此感到“欢欣鼓舞”,国际人类基因组计划核心成员之一、美国冷泉港实验室教授林肯·斯坦说:“在整个人类基因组测序工程中,研究者已经胜利攀登了一座高山,走过了一条漫长而艰险的道路。但这仅仅是‘开始的结束’。”  

    科学家们表示,虽然从数量上相比人类的基因并不占优势,但人类的基因图谱却要复杂得多。人类的复杂性不仅仅涉及到基因的数目,而更在于自然界如何采用这些基因。但人类如何拥有较少的基因,而又是如此复杂呢?美国科学家埃里克·兰德尔说:“基因的数量多少并不是关键问题,最重要的因素是不同物种如何利用了这些基因。”另一位美国科学家克林斯则认为,这在于人有多种蛋白质,即复杂的蛋白质做更多的工作。很多生物学上的复杂性,不是基于单个蛋白质,而是基于多个蛋白质的组合。  

    蛋白质组研究作为功能基因组学的重要支柱,理所当然地成为当今生命科学领域的前沿。蛋白质组研究不仅可实现与基因组的对接与确认,直接揭示生命活动的规律和本质、发现人类重大疾病与病原体致病的物质基础以及发生与发展的病理机制;而且还可广泛推动生命科学基础学科以及分析、信息、材料等应用科学的发展,对提高人类生物医学原始创新能力、重大疾病防治水平具有重要意义。从基因图止步的地方开始,人类蛋白质组计划迄今已开展7个项目。  

    几近完美的人类生命天书要归功于国际人类基因测序组织对已经得到的富含基因的片段的基因组序列进行了彻底认真的检查,剔除多处错误和前后不一致的东西。现在,基因组精图在28.5亿个碱基对的编码中只剩下了341个缺口,测序的失误率降至十万分之一,也就是说几乎不存在什么“漏洞”了;而这种精确度意味着这一人类基因组序列将成为今后国际人类生命科学研究的“金标准”,任何人都可以通过免费使用这一非常可靠的序列数据库来探寻疾病根源和发现新的治疗药物。

人类基因组图谱大修正人类基因组仅有2万~2.5万个蛋白编码基因

    被用作模式生物的低等动物秀丽隐杆线虫(C. elegans)只有1 mm长,生命周期也只有短短数天,但其基因组却含有1.95万个左右的基因,同样被用作模式生物的低等植物拟南芥也有2.7万个左右的基因,而在进化上比这些低等动植物都优越得多的人类,其基因组竟然仅有2万~2.5万个基因!这是国际人类基因组测序协作组(IHGSC)最近公布的最新分析结果。  

    由美国国立人类基因组研究所(NHGRI)和能源部(DOE)领导的IHGSC不久前宣布,人类基因组测序工作已圆满完成,其发表在2004年10月21日Nature(2004,431:931)上的分析报告对2001年2月发表的初步分析报告进行了补充。这篇最新分析报告不但为世人展现了一张精度大于99%、误差小于10万分之一的精确版人类基因组图谱,而且还进一步纠正了蛋白编码基因的数量,仅为2万~2.5万个,而非原先估计的3万~3.5万个。

新基因组图谱准确率达99.999%

    旨在破译人类基因组常染色质遗传密码的人类基因组计划(HGP)自1990年启动至2003年结束,历时共13年,该计划由IHGSC来完成。IHGSC是由法国、德国、日本、中国、英国和美国等6个国家20个研究所的科学家组成的开放性国际协作组织,全球2800余名科学家参加了IHGSC的工作。  

    2001年2月,IHGSC宣布,人类基因组草图已经完成。以今天的眼光来看,草图显然存在很多重要的不足,例如,仅测出了约90%的常染色质基因组序列,而且序列之间存在147821个未检测出的空缺等等。  

    在2001-2003年之间,IHGSC的不懈努力终于将此草图转化为今天这张既高度精确又相当完整的人类基因组图。此外,在这段时间内,还陆续发表了关于第5、6、7、9、10、13、14、19、20、21、22号染色体和Y染色体的详细评注和分析,其余12条染色体的资料不久也将发表。  

    现在的基因组序列(Build 35)共包含28.5亿个核苷酸,它近乎完整,涵盖了99%以上的常染色质基因组序列;准确率为99.999%,也就是说误差率只有1个碱基/10万个碱基对,比最初制订的目标精确了10倍。  

    序列的连续性亦获得了显著改善,常染色质基因组序列中仅存在341个空缺。现在,平均每一段连续序列含有3850万个碱基对,约比2001年版草图的81500个碱基对长475倍。这些没有中断的已知序列可以在很大程度上帮助科学家寻找目标基因及其邻近的调节目标基因活性的序列,并显著减少他们寻找疾病相关性短而少见的序列的工作量和费用。在剩余的341个空缺中,很多与片段的重复(segmental duplications)相关,需要采用新的方法才能将其填满。  

    IHGSC所完成的测序工作不仅完整而且精确,足以进行一些对敏感性要求较高的科学分析,例如基因数目的研究,疾病相关性重复片段的研究,以及进化过程中基因“生”或“死”的研究。该基因组序列的资料已于2003年4月被载入免费公用数据库。  

    “完成”并非意味着现在的人类基因组图就是完美无缺的。虽然与2001版草图相比,空缺已经从近15万个减少至341个,但是人类基因组序列的这些顽固空缺已很难用现有的技术来填补。填补这些空隙需要做进一步的研究,并需要采用新的技术。  

    美国马萨诸塞州麻省理工学院和哈佛大学Broad研究所所长Lander说:“已完成的人类基因组序列在准确率、完整性和连续性方面远远超过了我们的预期目标。它反映出全球数百名科学家为了一个共同目标——为21世纪的生物医学奠定扎实的基础——而进行大协作的奉献精神。”

仅有2万~2.5万个蛋白编码基因

    IHGSC最新分析所得出的最出人意料的结果就是,人类基因组只含有2万~2.5万个蛋白编码基因。  

    NHGRI所长Collins说:“仅仅在10年以前,大多数科学家还认为,人类基因组大约含有10万个蛋白编码基因。3年前,当我们对人类基因组序列草图进行分析时,我们估计人类约有3万~3.5万个蛋白编码基因,这在当时已经使很多人感到震惊。而刚刚结束的分析结果发现人类的蛋白编码基因数比预计的还要少得多,这使我们对人类基因组的真实情况有了更准确的了解。全世界的科学家都可以从免费公用数据库中获得该高度精确的人类基因组序列,这就使他们有可能对人类遗传学及其影响人类健康和疾病的机制进行更精确的研究。”  

    人类基因组分析的主要目的之一就是确定人类的全部基因。基因是编码特定蛋白质的一段DNA序列,是遗传的基本功能单位。目前的研究结果显示,人类基因组有19599个已经获得确定的蛋白编码基因,另外还有2188段可能为蛋白编码基因的DNA序列。

    英国Wellcome Trust Sanger研究所Rogers说:“由于2001年版人类基因组草图不够完善,因此导致了一些早期基因模型是错误的。基因鉴定仍是一项艰巨的任务。除了其他生物的基因组序列、更好的计算机化模型和其他手段的改进外,人类基因组测序工作的完成必将为基因鉴定工作提供极大的帮助。”

人类基因重复片段高达5.3%

    科学家们认为,已完成的人类基因组序列不但确定了更为确切的人类基因数量,而且与2001版基因组序列草图相比,质量也有显著的提高,并且使人们对某些现象有了更清晰和深刻的理解,例如DNA重复片段。  

    重复片段是指长的、几乎相同的DNA重复序列。已知很多人类疾病是由重复序列的突变所引起的,例如Williams综合征、Charcot-Marie-Tooth病(腓骨肌萎缩症)和DiGeorge综合征(胸腺发育不良)。美国圣路易斯市华盛顿大学基因组测序中心前主任、西雅图市华盛顿大学基因组系主任Waterston说:“以前只有基因组序列草图的时候,要对重复片段进行研究几乎是不可能的。通过全世界科学家坚持不懈的努力,现在我们已经可以对人类基因组中这一重要而快速进化的部分进行研究了。”  

    重复片段覆盖了5.3%的人类基因组,显著多于大鼠的基因组(约为3%)或小鼠的基因组(在1%~2%之间)。重复片段为人们开启了一个了解人类基因组是如何进化的以及人类基因组目前正在经历什么样的变化的窗口。人类基因组如此高的重复片段百分比表明,在最近4000万年内,人类的遗传物质经历了快速的功能变革和结构改变。这大概就是人类具有独特的特征,从而有别于其非人类灵长类动物祖先的原因。  

    IHGSC在分析中发现,重复片段在不同的人类染色体之间的分布差异很大。Y染色体就是一个最极端的例子,其重复片段占总长度的25%以上。有些重复片段往往群集于每条染色体的中部(着丝粒)或末端(端粒)附近。科学家们推测,基因组可能将着丝粒和端粒处的重复片段用作一个进化实验室,来生成具有新功能的基因。

揭示基因的“生”与“死”

    已完成的人类基因组序列准确度很高,这使科学家有可能了解在人类进化过程中基因的“生”和“死”。科学家在人类基因组中发现了1000多个新基因,这些基因是大约7500万年前人类与啮齿类动物向不同方向进化以后产生的。这些基因多数是最近通过基因重复产生的,与免疫、嗅觉和生殖功能有关,例如,人类基因组中最近重复的两个基因家族分别编码两组蛋白质,妊娠特异性β1糖蛋白和绒毛膜促性腺激素β蛋白,这两组蛋白质可能与人类独特的较长的妊娠期相关。  

    此外,科学家们还利用已完成的人类基因组序列发现并鉴定了33个几乎没什么变化的基因,但是由于它们在近期发生了1个或1个以上突变而导致了其功能丧失(或称为“死亡”)。科学家通过将这些基因与大鼠和小鼠基因组中的对应基因(鼠类中这些对应基因的功能仍保持)进行对照比较后,确定了这些无功能基因(又称为假基因)在人类基因组的确切位置。有趣的是,科学家们还发现,上述33个假基因中的10个似乎与编码嗅觉感受器的蛋白相关,这就有助于解释为什么人类的功能性嗅觉感受器较少,从而导致了人类的嗅觉比啮齿类动物差。Axel和Buck不久前就因在嗅觉分子生物学方面所做出的杰出贡献而获得了2004年诺贝尔生理学或医学奖。  

    然后,科学家将这33个假基因和黑猩猩的基因组序列草图进行了对照比较,以确定这些基因在大约500万年前类人猿进化为人类前是否还是有功能的。分析结果显示,33个假基因中的27个在人类中和在黑猩猩中均无功能,但有5个假基因虽在人类中无功能,但在黑猩猩中还是有功能的。美国休斯顿Baylor医学院人类基因组测序中心主任Gibbs说:“对这些人类基因组中的假基因以及黑猩猩基因组中仍有功能的对应基因的确定,为将来的研究项目打下了坚实的基础。” Gibbs等目前正在进行另一种非人类灵长类动物——恒河猴基因组的测序工作。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多