分享

清点人类基因组变异解读之现状

 医学abeycd 2023-07-25 发布于湖北

人类基因组计划完成及基因测序技术产业促进了大量疾病、性状相关基因功能的发现,在医疗健康领域产生了精准医疗、基因组医学的概念,衍生出一系列的产品和服务,其本质都是基因组测序技术产生的大量数据创造出的新知识产品。产生数据的成本快速下降,速度呈指数级增长,对于人类自身基因变异的解读,对于新的知识发现和知识应用的传播愈发重要。在临床开展基因组技术的应用,一个重要瓶颈是基因组数据中包含大量的意义不明确的变异位点会影响医生的临床决策。

关于人类自身的基因变异解读整体现状如何?我们整理资料,做了一个清点。

1.人类基因组到底有多大?

  • 常见的人基因组由23对染色体组成,端粒到端粒 (T2T) 联盟提供了最新版人类基因组的T2T-CHM13完整版,包括所有 22 个人类常染色体和 X 染色体的无间隙端粒到端粒组装,包括3,054,815,472bp的核基因组DNA,以及16,569bp的线粒体基因组,不包括Y染色体。

2.人类基因组到底有多少个基因?

  • T2T-CHM13版本基因组共注释有63,494个基因和233,615个转录本,其中19,969个基因(86,245个转录本)被预测为蛋白质编码基因。

3.人类基因组中有多少种基因变异?

都有哪些分子生物学影响?

  • 人类基因组的常见变异类型有:1)短序列变异,包括单碱基变异SNV、插入变异(Insertion)、缺失变异(Deletion)等;2)结构变异,包括平衡性结构变异,如倒位(Inversion)、易位(Translocation)和非平衡性结构变异,如拷贝数缺失(Copy number loss)和拷贝数增加(Copy number gain);3)其他,如动态突变等。

  • 变异导致的分子生物学影响:基因组发生以上变异可能会影响基因的表达,也可能导致蛋白层面发生同义、错义、无义或者移码变异,或者影响pre-mRNA剪接进而影响翻译产物。最终对蛋白的功能产生不同的影响,主要有功能缺失(Loss of function)、功能获得(Gain of function)、新特性获得以及异时或异位表达。

4.目前在人类基因组中发现了多少基因变异?中国人群中大概有多少?

  • 随着基因组测序技术的发展,在群体水平上开展测序的样本量快速增加,积累的庞大数据发现了大量的变异数据;

  • 美国精准医学计划开始后的执行主体All of US,2022年3月公布的集成数据集包括近 100,000 个全基因组序列(发现5.93亿多个基因变异)、214,000 份电子健康记录的信息。

  • 英国UKBiobank于2022年7月发布了15万人的全基因组测序数据,包括 5.85亿多个SNV, 5870多万个Indel, 895,100个SV, 250多万个微卫星。同时期发布的46万人的全外显子组测序数据,包括2390多万个高质量的变异;

  • 在中国人群中,哈尔滨工业大学王亚东教授课题组通过30499人的NGS全基因组测序和565人的单分子长度长全基因组测序,在学术会议上报道发现有2.64亿个SNV,新发现1.03亿;2700多万个InDel,新发现1200多万个;60.6万个SV,新发现15万个;长度长发现的结构变异SV有9.2万个,新发现1.5万个;其中有5300多万个可被编码功能注释的变异,1.1万个进行了临床信息有关的注释;

  • 上海瑞金医院曹亚楠教授课题组通过ChinaMAP计划,对代表中国不同地区和民族的10588人DNA样本进行了40×深度全基因组测序,在数据库中,包含1.36亿个SNV和1千多万个InDel,其中一半是在国际通用的多个数据库中均没有的新位点。

  • 西湖大学郑厚峰教授课题组通过WBBC计划完成了4535例样本的全基因组测序(平均测序深度13.9X),发现了74,118,191个SNV和7,380,804个InDel,其中93.3%的遗传变异是罕见和低频变异(等位基因频率小于0.05),38.5%为人类第一次被发现的新遗传变异,发现平均每个健康人会携带3,068,811个变异和11个致病变异。

5.已经从基因变异角度解读了多少种疾病、性状?

  • OMIM是一个全面的、权威的人类基因和遗传表型纲要,侧重于表型和基因型之间的关系,每天更新,条目包含与其他遗传资源的大量链接。

  • 可以看到目前7200多种疾病、表型关系较为明确的基因不足5000个,大量的被认为是编码蛋白质的功能还缺乏足够的数据进行解读。

6.影响基因变异解读的因素都有哪些?

  • 样本类型、样本数量,同种疾病或表型的样本数量越大,与疾病、表型相关的基因功能越容易解读,很多种罕见病由于能够相互验证的样本量少或匹配机会少,相关基因解读的速度会缓慢;

  • 表型数据的标准化,对疾病、表型描述的不标准、不规范造成了大量病例无法有效参与基因功能的解读,对于疾病、表型的描述标准化和精细化成为支撑性的基础工作;

  • 检测基因变异的技术,基因组变异的类型有多种,每种变异类型的检测技术相互之间存在一定程度异同和性价比差别,Sanger测序、基因芯片、NGS测序、长读长高精度测序等不同的技术相互之间价值重叠和互补关系丰富了基因变异发现的类型和数量;

  • 掌握医学、遗传学、基因组学理论知识的医生,生命作为多维度的非线性复合体,宏观的疾病、表型特征受多种因素的影响,对于基因与疾病、表型关系的阐述在实际的遗传咨询过程中非常复杂,熟练掌握医学遗传学理论和基因、变异解读规则的医生数量偏少也成为制约基因解读的重要因素。

7.国外基因变异解读的生态如何?

  • 欧美在基因组医学发展的过程中,非常重视战略研讨和战略规划,过去40年的发展历程基本按照规划的战略路径前进,特别是人类基因组计划带动起来良好的科研协作机制、技术研发转化体系,也形成了良好的基因变异解读生态;

  • 基因变异解读规则和详细操作指南的制定,美国有ACMG和AMP制定基本的基因变异解读规则,ClinGen邀请成立各个细分疾病、变异类型的解读专家组制定专门的变异解读指南,有专门开展变异描述标准化制定工作的HGVS和表型术语标准化的HPO,同时,形成了良好的基因变异解读培训机制;有促进数据共享提供标准制定和技术制定的全球基因组健康联盟GA4GH,有旨在促进世界各地试图识别和了解导致孟德尔病的基因和变异的研究人员之间进行互动的GeneMatcher\ mygene2;

  • 公共的基因变异解读参考数据库丰富,以孟德尔遗传病为主的OMIM,以参考人群频率为主的gnomAD,以病例匹配为主的Decipher,以变异解读提交为主的ClinVar;

  • 公共的开放式基础人群数据库,供全球研究人员开展广泛的基因与医疗健康的科学研究,英国UKBiobank面向全球研究人员开放提供15万人的WGS数据和46万人的WES数据及相关表型数据,美国All Of US提供10万人的全基因组数据和医疗健康数据;

  • 商业机构方面,有专注文献检索的Mastermind,有侧重集加强专业人员交流的Varsome,有专主提供遗传病解读软件和数据库服务的EmedGene\FabricGenomics\Congenica\GeneCards\Nostos Genomics\HGMD等等。

8.中国专注基因变异解读相关的企业、机构有哪些?

  • 中国的基因科学研究和技术产业生态与欧美存在较大的差别,由于人类遗传资源管理政策严格,大型队列数据往往以非在线公开的形式在少数合作机构内开展科研协作,导致中国公开可以开放用于基因研究的大型数据库缺乏,进而导致了基因解读参比数据库缺乏;

  • 在基因变异解读的规则制定、指南共识撰写上,中国基本参考美国ACMG制定的规则,尚没有形成制定解读规则的常在组织联盟;基于中文在疾病表型描述上的规范,中日医院顾卫红博士协调组织了CHPO;在变异解读培训上,主要有协和黄尚志教授领衔的会元遗传、哈佛大学医学院沈亦平教授领衔的合因教育、亦善遗传,中国遗传学会遗传咨询分会、华大基因不定期开展遗传咨询培训班,掌握基因变异解读规则和能力的人数整体不超过1万人;

  • 中国的基因科技企业在业务模式上倾向于全链条,即实力强的企业会尽力去延伸到产业的各个赛道,各个赛道上的企业会尽力延伸到上下游多个环节,基因解读作为基因行业的一个环节,独立的基因数据分析与解读企业规模相对较小,单独的做遗传病分析解读软件的企业尚没有形成成熟的商业模式;在健康业务方向,基云惠康基于其全基因组解读知识库面向大健康机构提供基因组解决方案,可以单独提供解读服务,但大部分机构选择的是检测+解读的整体服务。

人类社会的历史是一部科学技术不断进步,认识自身和环境的知识不断迭代升级,进而指导人类生活水平整体不断提高的知识创造史。人类与疾病的斗争演化出中医、中药、西医、西药等不同的医学概念和产品服务体系,随着达尔文提出生物进化论、孟德尔提出遗传学基本规律,人类对生命的认知进入了依靠数据、逻辑推理的科学化时代,生命科学知识创造的速度日进千里。X-射线衍射技术针对DNA晶体积累的数据促进了双螺旋结构的发现,聚合酶链式反应技术和基因测序技术使得人类基因组计划完成了草图和精细图,高精度长读长测序技术促进了完整人类基因组组装版本T2T的完成。有效的协作机制是促进知识创造的必要保障,VarClear清点社区主要是基于ACMG的解读规则,发挥社区的协作机制,懂解读规则的专业用户校勘来自文献、病例的解读证据,经过熟悉解读规则的多位专家审核来保证证据质量,在中国的协作文化下是否能够有效持续的运作还需要进一步观察,但值得尝试和期待。

参考资料:

.genomeweb.com/sequencing/analysis-150k-uk-biobank-genomes-leads-discovery-new-variants-trait-associations#.Yw372-xBxpQ

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多