分享

绘出完整人类基因组有何意义  张田勘

 金钱河南山牧童 2022-04-13

.

北京日报 | 2022年04月13日

  张田勘

      4月1日,《科学》杂志连发6篇论文,公布了人类基因组测序的最新重要成果。国际科学团队端粒到端粒(T2T)联盟,通过新的技术绘制出全球第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异。

  今天,我们就来聊聊和人类基因组测序由来、发展、意义有关的那些事。


        2021年6月26日,“纪念国际人类基因组工作草图绘制和'1%项目’完成座谈会”在北京举行,中科院院士、华大基因理事长杨焕明作主旨报告。

  研究人员正在检查DNA测序器的输出结果。

  《科学》杂志封面文章公布人类基因组测序的最新重要成果。

  2003年4月,国际科学团队宣布人类基因组序列成功完成。

  当地时间2022年2月23日,法国里昂的医学研究人员正在准备人类基因组测序,以更好地识别罕见疾病。

  1 乔布斯患癌与基因测序

  人类基因组是指每个人细胞中细胞核的23对染色体的脱氧核糖核酸(DNA)以及细胞质中线粒体中的小DNA分子。为何要检测和绘制人类基因组,一个简单的回答是,为了研究生命现象和治疗疾病。

  为了更好地理解这一点,我们不妨先来讲个故事。

  苹果公司创始人乔布斯于2003年10月诊断出患了癌症。当时初诊医生以为他患的是胰腺癌,但后来发现并不完全准确。

  胰腺癌是恶性程度极高的病,在当时几乎没有什么特效药。而且在人类基因组草图于2003年正式公布后,基因测序还处于初创时期并且相当昂贵。乔布斯属于最早尝试这种新兴事物的人,他在医生的建议下花了昂贵的费用对自己的癌症基因进行了测序,以期找到新的治疗靶点和更有效的治疗方案。

  后来发现,乔布斯患的并非是一般的胰腺癌,而是胰腺神经内分泌瘤。神经内分泌肿瘤是一类肿瘤的总称,是由生产激素的细胞出现变异恶化而产生的。它可以出现在胰腺,也可能在胃肠、肝胆或肺部发生。如果发生在胰腺,就叫胰腺神经内分泌瘤。

  遗憾的是,当时对胰腺神经内分泌瘤的基因突变检测还无法发现,因此基因测序并没有找到癌变基因靶目标。直到乔布斯去世的2011年,胰腺神经内分泌瘤的基因突变才被发现和公布,MEN1是这类肿瘤最高频突变的基因。

  这个世界上有相当数量的人天生就携带MEN1突变,他们都很有可能得一种病,即多发性内分泌腺肿瘤综合征Ⅰ型(Wermer综合征)。

  通过更多病人的基因测序和基因功能研究,以及CT、超声波等其他检查发现,胰腺神经内分泌瘤恶性程度较低,但临床上难以彻底治愈。与很多恶性肿瘤(癌症)相比,多数神经内分泌瘤要温顺得多,生长比较缓慢,即使出现了转移,也可以通过手术联合药物治疗等方式获得长期生存,5年生存率接近50%。这也是为何乔布斯患癌8年后才去世的原因。然而当时没有查到这一肿瘤的致癌基因,也没有特效药,因此他失去了挽救生命的机会。

  同时,人们也知道,如果有遗传倾向,并通过基因检测发现了其他致癌基因,如乳腺癌基因BRCA突变,就可以通过切除癌症的靶器官,如乳房,来预防乳腺癌,美国著名演员安吉丽娜·朱莉就是通过预防性手术切除乳腺来降低患乳腺癌的风险。

  但是,携带了MEN1突变,并不能通过切除来根治,因为这个基因突变产生的肿瘤病变一般在垂体、甲状旁腺、胰腺等器官,这些器官功能很重要,没法随便切除。

  所以,到目前为止,还没有有效的药物能预防Wermer综合征患者发生肿瘤,也没有针对MEN1突变肿瘤的治疗方案,但是,如果通过基因测序发现病因,至少是找到了研发药物和对症治疗的方案。

  自从人类基因组测序工作开展以来,研究人员估计,与癌症相关的基因约有1000个,如果都能通过基因测序定位、定性,世界上的绝大多数各类癌症就有可能得到预防和治疗。

  2 人类基因组序列的草图完成

  我们姑且把最新公布的人类基因组序列或图谱称为人类基因组的2.0版,或者高配版,未来是否还有3.0版,有待研究的深入。在了解人类基因组2.0版之前,先要回顾一下此前的低配版,即1.0版的人类基因组。

  1990年10月,人类基因组计划在美国首先启动,之后英、日、法、德等国参与并组成了国际人类基因组计划协作组,其核心内容是测定人类基因组的全部DNA序列。1998年中国计划加入人类基因组计划。1999年7月7日,国际人类基因组计划协作组公布了中国加入人类基因组计划的申请,并于同年9月1日向世界宣布,中国成为美、英、日、法、德之外,第6个人类基因组计划的参与国,也是唯一的发展中国家。

  人类基因组计划原定要用15年时间、投资30亿美元完成,但是由于测序工具的改进,这一庞大而艰巨的任务提前几年完成了。2001年2月15日,《自然》杂志发表了长达62页的论文《人类基因组的初始测序与分析》,这是从学术上向世界宣告,历经10年、耗资约27亿美元的人类基因组计划初步完成。不过,到了2003年4月25日,美、英、日、法、德、中六国才正式共同宣布人类基因组序列完成。

  但是,这只是一个草图,姑且称为1.0版。1.0版当然比较粗糙,但也是人类探索自身生命的一个重大里程碑。这个1.0版的主要内容是,科学家对人的23对染色体中所有DNA的约30亿个碱基对的排列组合作了测序,知道了在正常情况下它们是怎样排列的,以及它们之中某些基因的功能。

  当时所知的是,人类基因组包含近2万个编码蛋白质的基因,由约30亿个碱基对(遗传密码)组成。如果把这30亿个字符用A4纸打印出来装订成书,厚度可达约100米,相当于30多层楼高。

  3 初级版本带来的新认识

  人类基因组1.0版本完成后,当时及后来的研究认定,基因组中编码蛋白质的区域,即功能基因只占一小部分,不超过整个基因组的3%,其余97%左右的DNA序列统称为非编码DNA,也有人称为垃圾基因,但是这个看法现在已被证明是错误的。因为,这些年的大量研究表明,占人类基因组97%的非编码序列具有重要的生物学功能,而且与人类疾病有直接或间接的关联。

  同时,根据估计,人类基因突变或与基因有关的疾病有6000多种,与癌症相关的原癌基因就约有1000个。但是,人类与基因有关的疾病并非总是与编码基因相关,也与非编码基因有关。尽管迄今还有大量的功能基因不被人类认识,但是,1.0版的基因组为人类认识疾病、生命现象提供了坚实的基础。

  在人类基因组1.0版本的基础上,科学家逐渐发现了各种功能基因。在这些研究成果的基础上,又产生了更多的“组学”研究。其中,国际人类基因组单体型图计划(HapMap)就十分重要,通过这个计划,可以了解任意两个人之间的遗传差异。人类基因组1.0版本只是打开了人体自身的遗传密码这本天书的大部分章节,但地球上每个人的天书都是一种版本,HapMap揭示的就是不同天书版本之间的差别与规律,因此可以揭示复杂的疾病的遗传因素,如高血压、肿瘤、精神疾病、糖尿病等。

  在人类基因组1.0版本的基础上,还发展出了人类基因组DNA元件百科全书计划(ENCODE),目标是建立一幅人类基因组内功能元件的综合图。此外,还有人类蛋白质组计划(HPP)等。

  4 2.0版如何补齐人类基因组

  在2001年完成人类基因组1.0版本之后,科学家还为这个版本陆续打了不少补丁,来补齐这个版本,如2013年发布了参考基因组序列(GRCh38),在当时被认为是标准人类参考基因组。

  但是,此次发表的2.0版本又对2013年发布的参考基因组序列进行了重大升级,无论是从数量还是质量来看,都应当算是人类基因组的2.0版。

  2.0版本的人类基因组被命名为T2T-CHM13。从这个命名上,就可以看出它的一些主要特点。

  T2T的得名在于,它是由美国国家人类基因组研究所的亚当·菲利皮领导的“端粒到端粒”(T2T)联盟绘制,意指对每条染色体从一端到另一端进行测序,因为每条染色体的末端由端粒构成。

  同时,新版本的人类基因组是从一个被称为CHM13的细胞系中读取的DNA。人的细胞的每段DNA都有两个副本,一个来自母亲,另一个来自父亲,两者有一些重大差异。此前的1.0版本基因组是分段进行基因组测序并进行组装的,在组装基因组片段时,来自父母的基因序列可能会混合在一起,从而掩盖个体基因组中的实际变化。但是,采用CHM13测序人类基因组可以避免父本和母本基因的混淆,由此测得的序列只含有来自父本的DNA,这就可能获得以前未知的基因片段,而且这也是未来深入进行国际人类基因组单体型图计划的基础。

  当初的人类基因组1.0版本其实遗留了大约8%的“空白”间隙。总体而言,新的人类基因组2.0版本由30.55亿个碱基对和19969个蛋白质编码基因组成,比此前的1.0版本增加了近2亿个碱基对以及2000多个新基因。新版本还发现了大约200万个额外的变异基因,其中622个出现在与疾病相关的基因中。新版本序列还纠正了原来版本中的数千个基因结构错误。

  5 治疗癌症和其他疾病的新希望

  人类基因组2.0版本是否会给胰腺癌和其他癌症,以及更多的疾病治疗带来福音,挽救更多人的性命呢?答案是肯定的。

  人类基因组2.0版本的大部分新内容来自神秘的着丝粒,它是将两条染色体连接在一起的密集的DNA束,在细胞分裂中起着关键作用。参与这项工作的美国加利福尼亚大学伯克利分校博士后阿尔特莫斯指出,约90%的基因新序列来自染色体的着丝粒,着丝粒内部及周围的新DNA序列约占整个基因组的6.2%。

  着丝粒的作用在于,它的大型蛋白质复合物牢牢抓住染色体,如此细胞核内的其他组织就可以将染色体对分开。但是,一旦这一过程出错,染色体分离也会出错,随后一系列后果也会出现。如果这种情况在细胞的减数分裂时发生,可能会发生染色体异常,导致自然流产或先天性疾病。而且,如果这种情况发生在体细胞中,可能会导致癌症。

  显然,对着丝粒及其周围碱基对序列的精准检测,以及对其他原癌基因的研究,是未来预防和治疗癌症的基础,治疗癌症的药物和疗法也必然建立在这些基础之上,因此更多的癌症病人和其他疾病患者都会得益于新版本的基因组测序。

  另一方面,对5条近着丝粒染色体的短臂区域的测序结果显示,这些短臂区域中包含了编码核糖体RNA的基因的多个拷贝,一共400个。染色体短臂区域的变异水平也比较高,并有大量的重复序列。这表明,短臂区域很可能是基因演化的热点区域,因为停留在那里的基因拷贝可以自由变异并获得新的功能。因此,研究这一区域的基因既可能发现很多功能基因,也能进一步解开癌症和其他疾病的谜团。

  当然,新版本的基因组是单个基因组的测序,而且并非盖棺定论,它只是对1.0版本的人类参考基因组38(GRCh38)提供补充。而GRCh38并不代表任何一个个体,是由多个捐赠者的DNA组装而成,被合并为一个线性序列。

  现在,T2T联盟已与人类泛基因组参考联盟合作,对350个个体进行全基因组测序,并基于此创建一个新的“人类泛基因组参考”,以获得更全面和准确的人类基因组,因此,这个未来的基因组可以称为3.0版本。

  此外,中国人的基因组与现有的完整白人基因组序列仍然存在较大差异,因此,中国也需要测出完整的中国人基因组序列,以便面对疾病时能更好地对症下药。

.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多