分享

【学术向】剂量敏感性是人拷贝数变异致病性的主要决定因素之一

 汇江花园1981 2018-09-09

  人类拷贝数变异(copy number variantsCNVs)占基因组变异的数量级大于单核苷酸多态性(single-nucleotide polymorphismsSNP)。尽管这类变异中大多数都无表型,但其中一部分已证明与疾病(尤其是神经发育障碍)相关。致病CNVs通常非常大,同时包含多个基因,要了解其致病性原因仍然极具挑战。本文说明了致病CNVs具有丰富的涉及发育的基因以及在哺乳动物间具有更大进化拷贝数保护功能的基因,表示其功能限制。相反,良性CNVs区域中所发现的基因则具有更多的可变拷贝数。这类进化限制是致病CNVs中基因的特征,只能通过这些基因的剂量敏感性来进行解释。果表明单个基因的剂量敏感性是CNV致病性产生的一个普通原因,而进化度量也提示了在致病CNVs中辨别疾病基因的途径。

  拷贝数变异(CNVs)是基因中的一些区域在某个群体的某些个体中发生了重复或缺失。CNVs在人类中的研究最为深入,而在其他物种中也有较小程度的发现和描述。若根据碱基长度计算,CNVs的变异是多于单核苷酸多态性的,因此可以说CNVs在人类基因组中大量存在。相对于参考基因组,每个个体平均具有长度为4450bp1000CNVsCNVs在群体中发生隔离,但同时也会重新产生。基因组中某些区域为CNV热点区——10%的人类基因组区域经历着反复的CNV事件。

   通常情况下这种变异不会产生表型,是因为CNVs往往较小、常位于基因间或包含基因,可以耐受拷贝数的变化。有些基因甚至可以完全缺失而不会产生明显影响。然而,之前的研究已经证明CNVs与多种人类疾病相关,其中最显著的是神经发育障碍,包括孤独症谱系障碍、精神分裂症、智力障碍、注意力缺陷多动障碍、发育迟缓以及癫痫等。由于在疾病中的涉及,越来越多的研究对CNVs进行了深入分析,用以了解和描述其基因和表型影响。

      CNV有多种可能的机制能够破坏基因功能并导致表型的产生,包括对染色体结构的破坏、对调控元件的干扰以及对剂量敏感基因相对量的干扰。目前,已有多项研究表明拓扑相关结构域与基因组重复效应之间存在关联。尽管如此,关于CNV致病性的主流假设仍然是由其所包含基因的剂量敏感性所致。其中最先被很好描述的CNV致病性病例是Charcot–Marie–Tooth神经病变,该病特异性地与剂量敏感基因外周髓鞘蛋白22PMP22)的CNV相关。剂量敏感性提供了一种模型,即使基因拷贝数增加或减少50%是有害的。剂量敏感基因可能与其他基因处于化学计量平衡(如蛋白质复合体成员);可能以浓度依赖性方式运作(如发育成形素或某些剪接辅助因子);可能产生易于高浓度聚集的蛋白质(例如,SNCA);或者可能具有实现功能所需的最低浓度(即单倍剂量不足基因,包括许多转录因子和发育基因)。当这些基因的剂量被覆盖的CNV改变时,基因的功能以我们可以观察到疾病的方式被破坏。即使在致病性CNVs中,如果它们的破坏性很强而导致不能存活,也可能不会在其中观察到更强的剂量敏感基因。因此,我们不期望在健康个体中观察到剂量敏感基因的重复和/或缺失CNVs

    由于剂量敏感性与相对丰度相关而不是与绝对量有关,因此全基因组重复(whole-genome duplicationWGD是可容许的,因为根据定义,所有的基因均发生了重复。与CNVs和小规模重复不同,WGD事件维持了基因化学计量。两个这样的事件发生在脊椎动物谱系的早期,随后是广泛的基因组重排和大量基因丢失。从这些事件中保留的重复基因(ohnologues)对CNVs和小规模重复是阻滞性的,也就是说,它们的发展模式表明了古老且持续的剂量敏感性。在健康个体中发现的CNVsohnologues被耗尽,同时发现在致病性CNVs的基因间过多存在,进一步证实了它们处于剂量约束之下。

    本文研究了具有不同临床解释的CNVs中基因的进化历史,目的在于更深入地了解进化模式对于理解CNV致病性的预测能力。文章探究主流的假设,即CNV致病性是常由变异中一个或多个剂量敏感基因或区域的拷贝数变化所致,并且预测该剂量敏感性将以特征性方式同样限制它们在哺乳动物中的进化。与该假设一致,我们发现在致病性CNV区(CNVRs)中人类基因的直系同源在哺乳动物谱系中很少重复或丢失。相反,由良性变异重叠的基因在所测试的物种中具有高度可变的拷贝数。此外,我们还发现哺乳动物中具有保守拷贝数的基因在非人类健康哺乳动物中的CNVs中被耗尽,这反映了在人类中所观察到的模式。这些结果证明了剂量敏感性在塑造人类基因组中的作用,同时指出了进化度量在改进致病性CNV候选致病基因列表中的有效性。


结果

    致病性CNV峰值区域的鉴定。我们从dbVar中获得了临床解释为良性致病的人类常染色体生殖细胞拷贝数增加(CNGs)和丢失(CNLs)(表1)。不同研究之间CNV的操作性定义不同,但在本文使用的数据中,一个CNV的最小长度为50 bp。此外,我们排除了占相应染色体长度>10%的CNV,因为这会使包含的基因数量显著增加,同时可能会影响分析。尽管良性CNVs数与致病性CNVs相比约为21,但任何致病性CNV所覆盖的基因组比例(74.4%)远远大于良性CNVs8.3%),这是因为致病性CNVs的平均长度明显较长。无论是增加或丢失事件(分别为CNGCHL),CNVs均由其起点和终点进行描述。一个给定的基因组区域可能同时存在多个具有不同起点和终点、不同类型(增加或丢失)和不同临床解释的CNVs。部分重叠的CNVs集合在一起成为CNVR。相比之下,其他区域根本不会观察到CNVs或仅有罕见的CNVs


   即使在很好描述的致病性CNVRs22q11中,该CNVR的起始点和终点在患者之间也是可变的。不过,已经确定了一个关键1.5 Mb区域,该区域在大多数病例下很常见,同时常推测主要致病基因存在于该区域内。为了反映这种方法,我们确定了致病性CNVRs的再发亚区,因为我们认为它们更可能包含致病基因。




 致病性CNVs富含发育基因。CNVs与多种疾病相关,如心脏病,癌症,免疫缺陷,听力损失和肥胖然而,它们通常与发育条件有关超过14%的发育迟缓和智力障碍病例是由CNVs引起。这是直观的,因为发育被认为是一个非常平衡,剂量敏感的过程。尽管如此,人们必须仔细考虑确定偏倚的可能性:不可能知道某个人是否会在生命后期患上心脏病,因此他们会被视为健康的,而从定义上看发育情况是早发性的,所以在出现开始就应始终注意。因此,目前尚不明确是否有发育情况的明显改善反映了发育过程中的检测偏差或更大的内在弱点。

 P类基因显示剂量敏感基因的特征。仅在致病性CNVs中发现的基因(图b中的蓝色阴影部分),标记为“P类基因





   

    单独的P类基因为神经发育富集。当考虑P类基因的基因组分布时,我们观察到390CNVRS178个致病CNG区和212个致病CNL区)中有7个不包含任何致病CNVRs独有的基因。在这些情况下,致病性可能是由减少外显率的基因、CNV的位置效应或不同类型的剂量敏感性引起(例如,如果基因是单倍剂量不足的,或者反过来,如果基因倾向于更高浓度聚集,那么这些基因可能在致病性丢失和良性增加的CNVs中,反之亦然,那么就不会将其指定为完全致病的)。

  P类基因具有高进化拷贝数限制。CNV致病性由封闭基因的剂量敏感性引起的假设前提下,我们期望观察到致病性 CNVs内基因进化的特有模式,即基因重复和丢失事件的缺乏。我们通过计算有拷贝数变化的基因组的数量来研究基因在哺乳动物树中的重复和丢失。对于给定的人类基因,推断出其已经存在于哺乳动物的共同祖先中(即,排除更新的基因和同源不可识别的基因)。我们浏览了13个基因组,并指出是否存在基因重复,无同源基因或基因组中无变化


 致病性CNVRs的进化拷贝数守恒。如果我们想象一个简化的场景:在一个区域中存在单个剂量敏感基因,观察到的峰值CNVR可能重复地包含多个基因。在CNV 热点情况下,这可能是特别真实的,它可能位于几个基因的距离,重复产生多基因CNVs。在这种情况下,无论是剂量敏感基因或密切相关的非剂量敏感基因将观察到良性CNVs。类似地,由于进化基因复制事件具有与CNVs相同的机械起源,连锁的非剂量敏感基因可能具有复制和丢失的模式,这有点跟踪剂量敏感基因的模式。然而,如果基因组重排事件破坏了连锁,这种对非剂量敏感基因的附带约束将被打破。因此,基因拷贝数守恒模式最一致的基因是最有趣的。

 保守的基因揭示了古老和持久的限制。我们鉴定了在所有13个哺乳动物基因组中具有保守拷贝数的7014个人类基因(补充数据3)。尽管这种定义不依赖于CNV状态,但这种进化信息提示了剂量约束。其中28%以上参与了发育,与通过致病性CNVs鉴定的基因一致。总的来说,我们发现进化保守基因在解剖结构发育”,“细胞通讯”,“磷代谢过程”和“大分子修饰”特别是“蛋白质修饰过程”中明显富集。

  我们测试了保守拷贝数的基因在由良性CNVs重叠的基因和由单独的人CNV 图谱重叠的基因中的代表情况。我们发现相比在所有13个基因组中不保守的10.9%1272/11632)基因,它们在良性CNV基因中有5.8%(393/6809)由良性CNV覆盖的保守基因代表性不足(P1.0×10-16,卡方检验)。同样,保守基因在对照CNV图谱中覆盖比例(7014个基因中35.6%覆盖保守基因),与所检测基因组中不保守基因(13.300个基因中38.4,)相比更少(P=0.0001,卡方检验)。这与我们预期的这些基因处于拷贝数的限制下是一致的,也与先前的工作所显示得在良性CNVRs和单倍剂量不足基因中重复相对较多是一致的。



讨论:

尽管由基因组中不同位置的CNVs获得的表型存在很大差异,但是某些共性提供了对CNV致病性的基因和生物学机制的一些深层次的见解。我们观察到在致病CNVs的基因中存在功能和进化上的趋势模型,这种趋势模型支持了一种假说,即基因剂量敏感性是主要的成因。特别是,CNV的亚片段常常在一些致病的病例中反复重现,或者CNVRs很罕见但与致病性存在一定的相关性,考虑到基因包括了功能和进化这两方面,这个结果是有偏差的。特别是,结果表明常常发现具有重复和丢失受约束进化模型的基因位于致病CNVs中,强烈证明了CNV中的个别基因,其剂量敏感模型是产生致病性的原因。这一模式并未在其他模型中被预测到(尽管并不排除CNV致病性其余机制的共存性)。此外,具有此类进化模式基因的鉴定提供了一个简短的候选基因列表以便今后的检验。只在致病CNVs中发现的只包含一个基因的致病CNVs峰值区域特别令人感兴趣。基于公认的简单逻辑,这199个基因是导致疾病的候选致病基因。与之相一致的是,此类基因的重复或者缺失很少在其他哺乳动物中发现(图2d,panel 2)。

重要的是,这种对基因的重复和缺失的分析只限于我们可以推断出所分析的13个哺乳动物基因组的共同祖先中存在的基因。因此,我们回避了那些可能和检测快速进化基因难度增加相关的任何问题。那些我们不能推断出存在于共同祖先中的基因不是新的基因,就是那些由于基因缺失或广泛序列进化而难以检测的老基因,并且如果不对基因座进行更详细的检查是不可能区分这些基因的。然而我们发现相比于基因组其余部分4.8%(852/17628),那些祖先哺乳动物中未推断的基因常富集于良性CNVRs7.6%(137/1802)(P=4.7×10-7),表明其存在较低的进化限制,与破坏的表型存在较少影响一致。

单倍剂量不足基因是指获得野生型表型所需的基因产物量最少的基因。从逻辑上讲,这与剂量平衡基因不同,后者在产物量上存在任何显著破坏(无论是增加还是减少)均会产生表型;然而,在实践中,两者可能重叠(例如,如果仅测试杂合子敲除的表型)。有趣的是在huang等人对单倍剂量不足的分析中,发现了单倍剂量不足基因的少量旁系同源物,尽管这并不是单倍剂量不足所能预测的,但是可以认为是剂量敏感或者剂量平衡所期望的。我们预期图2b中黄色片段所指示的模式,是一个良性增加而不是一个致病性的丢失,应当自然是单倍剂量不足基因。相反,存在于致病性增加CNVs而不是良性丢失CNVs中的基因常倾向于高浓度富集(图2b中绿色片段)。虽然我们缺少关于聚集倾向基因的精确数据来相应的数据来测试后者的关系,但是我们可以使用最近单倍剂量不足的可信数据来验证前者。我们观察到良性增加、致病性丢失区域的基因中预期的单倍剂量不足富集。这些基因可以被认为是单纯的单倍剂量不足基因。然而,上述的P类基因富集表明许多单倍剂量不足基因也用其他方式表现为剂量敏感。

总之,进化和剂量敏感性与CNVs之间的关系是非常有趣的。正如我们所指出的那样,由于这一有趣之处并且由于在样本采集时能够更可靠地识别发育疾病这一事实,疾病CNVs的解释是存在潜在偏差的。因此,在对致病性CNVs中发育基因的富集必须在这一理解下常规进行解释。然而基于哺乳动物物种间拷贝数保守的进化测量与疾病解释无关,并且没有相关的报告或研究偏差。我们发现这些进化受限基因的确丰富了发育基因,该结果证实了进化是一个固有剂量敏感过程的观点。

本研究首次对良性和致病CNVs基因的基因组进化趋势进行比较研究,揭示了两类CNVs的不同功能和进化趋势,这表明了进化度量在CNVs解释中的有用性。



本文翻译自:

Dosage sensitivity is a major determinant of human copy number variant pathogenicity

Alan M. Rice& Aoife McLysaght1

Nature Communications

Published 8 Feb 2017

(内容有所精简)





    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多