遗传变异、比较基因组学和疾病诊断 Genetic Variation, Comparative Genomics, and the Diagnosis of Disease

医学abeycd 2019-07-05

展开全文

发现人类遗传病的相关突变是比较基因组学（见术语表）的一项工作。尽管有许多不同的策略和方法，但首要前提是与未患病的人（对照）相比，患病的人携带显著过多的致病性DNA变异体；未患病的人可以是临床确定的1，也可以是通过调查大范围一般人群确定的2。变异体对于疾病而言越是独有，其外显率越高、效应量越大，并且与疾病诊断和未来治疗研究的相关性越大。人类遗传学研究者最常应用的方法是病例对照设计，但也有在家族背景下追溯变异体和疾病的其他方法，或者根据趋异或新生突变的进化模式考虑不同类型突变概率的其他方法3,4。方法可能简单明了，但发现致病变异及其作用机制的过程却并不简单，可能需要数十年研究才能鉴定出孟德尔遗传性状和复杂遗传性状的基础变异体（见视频，可在nejm.org获取）。

例如X连锁色盲是一种众所周知的遗传性状，常见于北欧裔男性5。我们早已知晓这一性状的基础是红色和绿色视锥色素（视蛋白）基因发生突变。值得注意的是，在欧洲男性中观察到的潜在缺陷突变率（15.7%）最初似乎高于观察到的色觉缺陷患病率（8.2%）。我们认识到以下两点之后部分解答了这一差异：视蛋白基因的拷贝数可变6，该基因的表达局限于串联排列序列中的第一个红色和绿色视蛋白基因（串联排列序列的表达受到单基因座控制区的控制）7。不论一个人携带该重复基因的多少额外拷贝，真正重要的只是哪些基因位于基因簇的第一和第二个位点（图1）。因此，只有基因拷贝的串联排列序列在这两个关键位点发生破坏、删除或产生融合基因的突变时，才会表现为色觉缺陷。视蛋白基因在其他拷贝发生的突变几乎不产生影响5。

图1. 红绿色盲基因座的结构和表达

编码红色（OPN1LW）和绿色（OPN1MW1和OPN1MW2）视蛋白的基因在X染色体上以首尾相连的构型排列（图A）。基因座控制区（LCR）与红色视蛋白或第一个绿色视蛋白基因的启动子交联，可驱动转录并促使视网膜中形成红色或绿色视锥5。规范排列（图B）下方列出了五种不同的人类突变，包括绿色视蛋白缺失，结果导致绿色盲（图C）；红色视蛋白基因中的终止密码子突变，结果导致红色盲（图D）；产生红绿杂合基因的基因转变事件，结果导致红色弱（图E）；最近端基因中的终止密码子，结果导致绿色盲（图F）；以及远端绿色视蛋白基因中的复制和终止突变，该情况对色觉无影响，因为远端拷贝基因很少在视网膜中表达（图G）。如果要理解这一人类性状的基因型-表型相关性，了解序列结构、调控和拷贝数变异是关键。

遗传病的关联有三个关键方面：全面发现变异体，准确测定等位基因频率，以及理解正常变异模式及其对表达的影响。遗传变异的正常模式包括在任何特定基因座发生的新生突变频率、人口统计学差异和进化选择。理解上述每一方面都依赖于基因组技术的进步，包括对其他物种基因组的准确测序和组装。在过去20年间，由于技术局限性、投资优先顺序和疾病遗传模式，我们对这些特征存在确认偏倚。

人类遗传变异的类别

并非所有类别的突变都以相同的频率发生，它们在促发疾病方面产生的作用也不相同。人类遗传变异的范围很广，从点突变（如HBB[编码β珠蛋白]的腺嘌呤核苷酸被胸腺嘧啶核苷酸取代，这一突变是镰状细胞病的病因）到涉及整个染色体的大染色体非整倍性事件（如21三体[唐氏综合征]）。

尽管单核苷酸变异体（SNV；人类基因组中特征最明确的变异体类型8,9）的数量超过其他类型的DNA序列变异体，数量比接近7∶1（表1），但对人类基因突变数据库（Human Gene Mutation Database，www.hgmd.cf.ac.uk/）数据所做的分析表明，在所有致病变异中，有34%是由大于单碱基对取代的变异体构成，且这一趋势在过去10年中一直缓慢上升。这些变异体中近1/3被归类为涉及20 bp以上缺失和插入的肉眼可见病变。结构变异包括拷贝数变异，指的是两个基因组之间至少50 bp的差异；结构变异也包括插入、缺失、倒位和易位10,16。为了实际操作之缘故，这些变异体在长度方面不同于小片段插入和缺失（称为插入缺失），后者为1～49 bp。

表1. 人类遗传变异的类别*

* 数据来自千人基因组计划联合会（1000 Genomes Project Consortium）8、Sudmant等10-12、Huddleston等13和Chaisson等的论文。

† 数据反映了二倍体人类基因组（包括约5.8 Gbp常染色质DNA）中突变事件的数量。

‡ 表中列出的是平均值。

§ 多拷贝数变异体是尚未完全解析的结构变异体的子集；它们富含片段复制，但不包含着丝粒和近端着丝粒的异染色质区。

我们现在已经明确，影响基因的结构变异很常见，并且对疾病和疾病易感性有很大促进作用17-22。结构变异体造成的两个人类单体型之间的碱基对差异超过任何其他形式的遗传变异所造成的差异（表1）10,11。此外，与SNV相比，大片段结构变异体与全基因组关联信号相关的可能性是前者的3倍，影响基因表达的可能性是前者的30倍以上10,23。原因是如果DNA发生的变化较大（如序列缺失或插入），其有害作用一般也较大24，即使是在基因组的非编码区，结构变异体增加、消除或改变调控序列以及导致基因表达变化的可能性也超过SNV。当然，如果此类事件与蛋白质编码基因的外显子发生交叉，它们可能导致更严重的有害事件，因为整个外显子的丢失通常会破坏蛋白质的合成。因此，一般人群中大片段结构变异体（即＞ 250,000 bp）的频率很少超过1%，这一点不足为奇。即便如此，在表面看来未受影响的人群中，仍有约1/4携带长度超过250,000 bp的结构变异25。

即使有深度基因组序列数据（即覆盖所关注区域的非常多测序片段），人类遗传变异的检测也是不完善的。尤其是结构变异，它们是应用短读长DNA测序方法最难明确其特征的变异，因此导致未能检测出致病等位基因20-22,26。原因是应用短读长测序技术检测结构变异属于间接检测：有赖于推断。鉴定插入、缺失或重复时依据的是对测序深度的测定，或者患者和参考基因组（目前定义为GRCh38）DNA序列之间的不一致性10,12,27-29。通过这一方法，当新基因组的序列显示出与参考基因组不一致的排列模式时，参考基因组成为发现较大片段变异体的共同基准。因此，通过这些间接检测，我们并未能明确结构变异体的实际序列特征；而是推断出存在变异体。发现结构变异体的方法受到事件本身的长度和序列背景的影响，尤其易产生偏差（图2）。最值得注意的是，对于中等长度的结构变异体（＜2,000 bp）、倒位、DNA组成中富含GC或AT的区域以及定位到重复区域的多拷贝数变异体，存在偏离13,14,30（多拷贝数变异体属于结构变异体，其拷贝数在一般人群中可跨越多个整数值）。

图2. 不同基因组技术对于结构变异体的检测灵敏度

图中显示了在相同的三个人类基因组中，使用不同的变异体检测技术检测出的结构变异体数量（在对数尺度上显示DNA获得或丢失），图中的变异体数量是作为变异体长度的函数。结构变异体、插入和缺失是通过短读长测序、长读长测序（如PacBio）和光学定位技术（如Bionano Genomics）检测出。短读长测序对于结构变异体（尤其是50～2,000 bp的插入）的检测灵敏度较低。对于较大片段的多拷贝数变异体（＞10,000 bp），两种技术在序列分辨率方面均表现不佳；光学定位技术可检测此类变异体，但不能解析其序列排列模式。改编自Chaisson等的论文。14

根本问题是结构变异在重复DNA的内部或附近高度富集11,31,32。重复DNA使依赖于定位的方法（如结构变异体检测）在应用时变得复杂，因为测序片段并非只有唯一定位，而是定位到基因组中的多个位点。测序片段越短，定位变得模棱两可的基因组部分就越多。因此，短的测序片段限制了我们发现结构变异体并对其进行基因分型的能力。复杂的遗传变异模式及其与遗传性状（如红绿色盲）的关联变得难以理清。因为此类变异大多尚未发现或尚未进行序列解析，因此有些人假设此类神秘的遗传变异对人类疾病的“遗传性丢失（missing heritability）”可能有很大促进作用33,34。

更多和更完整的参考基因组

鉴于人类遗传变异的复杂性，单一的人类参考基因组是不够的。事实上，对第一个人类基因组（它为当前的人类参考基因组GRCh38提供了基础）35进行最初测序之后，令我们非常惊讶的状况之一是测序的第一个基因组和其他人类基因组在组成和结构方面有巨大差异19,36,37。虽然大多数人已经接受了不同人之间会有数百万SNV差异这一观点，但人们需要更长时间才能认识和接受以下观点：不同人的遗传密码有数万较大片段（＞50 bp）的插入、缺失和倒位差异（表1）。由于重复基因的获得和丢失，不同人的基因组成可能会有所不同，这一观点刚刚出现38，但对视蛋白和色盲性状所做的早期研究显然预示了这一点。

这非常重要，因为临床医师和遗传学家在发现与疾病相关的遗传变异体时，参考基因组是他们所采用的基准。广泛的基因组结构变异意味着任何单一的人类单体型（如第一个人类参考基因组）都可能缺失或包含序列变异体（包括结构变异体），而这些变异可能存在于，也可能不存在于大多数人类。此外，在人类以外，我们并未能很好地理解复杂的遗传变异区域，因为非人灵长类动物基因组的完成程度尚未达到与人类参考基因组相同的标准，并且在这些复杂的遗传变异区域之上通常有数十万间隙39。由于我们缺少这一信息，因此关于这些区域的变异耐受性和保守程度，我们目前的了解有限，而且其中的基因也被排除在疾病关联研究之外。我们需要对多个人类基因组进行更系统的分析，这些基因组可为不同的人群产生参考基因组。多年来，通过组装不同族群的短读长数据，我们曾数次尝试快速鉴定缺失序列40,41。因为该序列通常富含重复DNA，所以无法准确组装或轻易整合到当前的参考基因组中，因此未能明确相关的结构变异特征。为此，美国国立卫生研究院最近发布了一项申请，要求从不同血统的人产生高质量的参考基因组。不同的参考基因组使我们能够脱离人类参考基因组的指导来发现变异，并在未来发现变异时作为独立组件。

长读长测序技术使我们能够对大片段（从10,000 bp至1,000,000 bp）的天然DNA进行直接测序。这对于检测结构变异特别有利，因为长读长为锚定和解析大多数结构变异（不论序列组成如何）提供了必要的背景。许多研究已经提供了证据证明，长读长可增强对结构变异体的检测30,39,42-45，尤其是长度50～2,000 bp的变异体。直接比较表明，长读长检测出的结构变异体是短读长的2.48倍，即使后者采用可能达到的最高灵敏度。据估计，如果应用多项短读长识别算法，通常会遗漏至少48%的缺失和83%的插入14。

长读长测序技术使我们能够检测之前人类遗传变异研究并无能力检测的区域，包括可变数目串联重复序列（VNTR）30,46、片段重复38和着丝粒47。因此我们发现的复杂遗传变异的数量激增。例如，应用长读长对15个人类基因组进行的分析解析出大约100,000个常见的结构变异体，其中约有一半是之前未知的46。多个人类参考基因组还提供了关于现有人类参考基因组序列的信息，从而使我们能够鉴定出现有序列中有错误或属于次要等位基因（人群中频率＜50%的等位基因）的超过15,000个位点。这项研究还揭示了之前未鉴定出的调控序列、外显子和蛋白质编码基因38,46。对结构变异体的序列解析不出预料地改进了对这些变异体的基因分型13,46，即使是通过短读长测序技术对其进行测序，从而使我们能够在疾病关联中发现新的候选关联20-22。

发现疾病变异体

数项研究表明更全面地发现变异体具有重要意义（表2），原因是其与变异体和复杂遗传病之间的关联相关20-22。10年来，对双相障碍和精神分裂症所做的全基因组关联研究均发现CACNA1C（编码钙离子通道亚基）内的一个定位区域，但尚未发现与疾病相关的突变。Song等专注于内含子30bp VNTR，并表明所有人类均携带100～1,000个单位的上述重复序列扩增20。这一发现与人类参考基因组的结果不同，人类参考基因组中似乎只有两个亚基，而这很可能是以下两点联合作用导致的伪像：这一重复序列的不稳定性，以及在人类基因组计划中为测序执行准备工作时运气不佳。虽然扩增长度高度可变，但与疾病相关的不是其长度，而是决定保护性和风险性单体型的特定30 bp重复序列的组成和丰度。Song等证明序列的组成差异（通过长读长测序进行推断）与神经细胞中CACNA1C的表达差异相关20。

表2. 遗传病和复杂变异体*

* FISH表示荧光原位杂交、PCR表示聚合酶链反应、SNV表示单核苷酸变异体，VNTR表示可变数目串联重复序列。

† “是/否”表示基因座结构在人类参考基因组中未完全呈现。

‡ “是/否”表示可以部分检测出变异体（取决于等位基因的长度，即较长的等位基因序列未能完全解析）。

§ SVA（SINE-VNTR-Alu）是在人类和类人猿中发现的一类逆转录转座子。

同样地，对良性成人家族性肌阵挛性癫痫亚裔家族所做的连锁分析已将这一常染色体显性疾病的遗传原因定位至染色体8q24，但20多年来未能解析出致病变异体。利用长读长测序技术，在51个家族中，Ishiura及其同事鉴定出49个家族的基因SAMD12内含子中有TTTCA和TTTTA扩增22。尤其是TTTCA扩增仅见于患者，未见于对照。作者随后在其他基因中搜索这一基序扩增，并在其他两个家族的不同基因内含子中鉴定出类似的扩增，例如TNRC6A（编码含有6A的三核苷酸重复序列）和RAPGEF2（编码Rap鸟嘌呤核苷酸交换因子2）。他们得出结论，重复扩增（不论是哪种基因）可能通过RNA介导的毒性机制导致良性成人家族性肌阵挛性癫痫，这为发现致病性癫痫等位基因提供了新的模式22。

最后，Aneichyk及其同事进行了一项多层基因组分析，目的是确定一种难以捉摸的孟德尔神经退行性疾病，即X连锁肌张力障碍-帕金森综合征的病因21。他们联合应用长读长转录组和基因组方法，在TAF1基因内含子中鉴定出逆转录转座突变这一可能的致病突变。这一突变事件发生于菲律宾班乃（Panay）岛的一个奠基者单体型（founder haplotype ），可诱导前信使RNA发生异常剪接。长读长测序证实，这种罕见的帕金森综合征的患者存在异常剪接变异体21。这些例子为我们指出了前进的方向，通过这一方向我们可以鉴定出尚未发现致病突变的20%以上孟德尔疾病所涉及的变异体。

未来展望和观点

过去10年的技术进步极大地改变了我们发现和诊断致病变异的能力。尽管人类遗传学取得了许多成功，但在罕见的孟德尔疾病和常见的复杂疾病中，大部分的遗传原因仍然不明。尽管许多人认为这只是一个通过增加样本量来提高性能的问题，但另一种可能性是，即使在“全”基因组测序之后，相关变异体仍被遗漏了。在这种情况下，简单地用短读长数据集对更多的患者样本进行测序，并将测序片段与单一参考基因组进行比对并不是最好的方法。展望未来，有几个领域如果可以得到支持的话，将有助于我们更全面地理解遗传病的病因。

多个人类参考基因组

鉴于遗传变异的复杂性，一个参考基因组显然不足以代表人类遗传多样性。我们需要对来自不同人群的正常基因组进行测序和组装，尤其是非洲裔人群，因为遗传变异的最大来源就是这一人群52。长读长DNA测序结合短读长误差校正正在引导数十种新的参考基因组的开发，目前有50多种参考基因组正在开发中。据估计，以我们现在的发现速度，如果通过这一方式对300个人类基因组进行测序，将使目前已知的（在DNA序列水平）结构变异体数量加倍，理论上而言可以鉴定出大多数常见的结构变异体（或至少鉴定出等位基因频率≥1%的变异体）46。对结构变异体进行序列解析的益处是可以在现有的短读长数据中对此类等位基因进行更好的基因分型13,46，这反过来又使我们可以在已经产生的数百万Illumina基因组中鉴定出新的关联。

定相基因组

许多致病变异体位于编码区之外（表2），但它们的致病作用常影响基因表达和翻译。尽管外显子组测序的成本较低，因而可以达到较大的样本量和性能，但它几乎没有提供关于调控突变的信息，而且甚至在编码序列中也限制了对小片段结构变异体的检测53。发现与非编码突变相关的致病突变具有挑战性。然而，与SNV相比，结构变异体有害并影响基因表达的可能性较大，因此系统性地发现此类变异体可能为我们提供了更好的立足点，我们可据此理解非编码调控突变及其对常见和罕见遗传病的影响。全基因组测序对于检测结构变异体至关重要，据估计，完全定相长读长基因组序列数据提供的结构变异体检出量是Illumina全基因组测序的2.8倍，此外与不定相长读长识别相比，可将检出量增加30%13。因此，我们应该开始考虑6 Gbp（而非3 Gbp）基因组，这样两个亲本单体型均可完全测序和组装14,54。

组装和比对的比较

在临床上，我们有必要转变我们对于变异体的发现模式，即之前是基于序列片段与参考基因组之间的比对，现在应转向基于从头组装。不完整的参考基因组可能导致我们未能发现致病等位基因，以及基于错误定位对变异体做出错误解读。我预测，在10年内，我们将有可能首先对患者的两个单体型进行临床测序和组装，然后通过与参考序列比较的方式发现变异体。这对于成年后发病，因而可能已经无法获得父母DNA的疾病尤其有意义，例如精神分裂症、阿尔茨海默病和帕金森病。在这种情况下，我们可以用新的基因组技术对长读长序列数据进行物理定相，从而解析两个亲本单体型，并与其他基因组进行比较14。这种比较将有助于发现个体化遗传变异体。这将需要使用多个参考基因组，可能还需要使用基于图的参考基因组（即建立在参考基因组基础上，并且捕捉物种或种群单体型多样性的非线性基因组呈现），用于扩大和改进人类参考基因组多样性以及对变异体的发现55,56。

从端粒到端粒的测序

使用短读长序列数据对人类基因组进行的常规分析仅捕捉了大约85%的基因组，且排除了一些变异最丰富的区域，因此这些区域被排除在关联检验之外8。我们的目标应该很简单：明确人类染色体从端粒到端粒的完整序列特征，包括近端着丝粒、端粒、着丝粒和片段复制DNA。长读长和超长读长测序平台30,38,47如今使我们能够进入这些传统上无法测序的人类遗传变异区域。

高质量比较基因组测序

对变异体的解读得益于从根本上理解以下几个方面：新生突变率、物种间DNA序列的保守性以及在任何特定基因座的选择。目前已经有特定工具57,58应用了上述知识，这些工具有助于鉴定可能的致病变异体。然而，它们要求在物种内和物种间统一确认变异模式。因为许多种间同源DNA序列片段在历史上未做到很好的比对，且突变率相差几个数量级，因此必须将人类基因组测序中的严格标准同样应用于非人类灵长类动物、哺乳动物和脊椎动物基因组59,60。

现在是时候进入比较测序的新时代了，目标是完成多个不同人类和非人灵长类动物的基因组测序。从短期来看，这样我们可以为解读全范围人类遗传变异开发出所需的进化和种群框架。我们通过这些数据可以发现新的致病等位基因，并开发出用于鉴定这些等位基因的新策略。从长远来看，基因组学领域的这些进展将为临床上患者基因组的定相、测序和组装提供模板，随着长读长技术成本的降低和检测能力的增加，临床测序将变得合理可行。

Disclosure forms provided by the author are available with the full text of this article at NEJM.org.

译者：侯海燕，NEJM医学前沿

校对：照日格图，NEJM医学前沿

作者信息

Evan E. Eichler, Ph.D.
From the Department of Genome Sciences, University of Washington School of Medicine, and the Howard Hughes Medical Institute, University of Washington, Seattle. Address reprint requests to Dr. Eichler at the Department of Genome Sciences, University of Washington School of Medicine, Foege S-413A, Box 355065, 3720 15th Ave. NE, Seattle, WA 98195-5065, or at eee@gs.washington.edu.

参考文献

1. Natarajan P, Peloso GM, Zekavat SM, et al. Deep-coverage whole genome sequences and blood lipids among 16,324 individuals. Nat Commun 2018;9:3391-3391.

2. Lek M, Karczewski KJ, Minikel EV, et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature 2016;536:285-291.

3. O’Roak BJ, Vives L, Girirajan S, et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature 2012;485:246-250.

4. Samocha KE, Robinson EB, Sanders SJ, et al. A framework for the interpretation of de novo mutation in human disease. Nat Genet 2014;46:944-950.

5. Deeb SS. The molecular basis of variation in human color vision. Clin Genet 2005;67:369-377.

6. Neitz M, Neitz J. Numbers and ratios of visual pigment genes for normal red-green color vision. Science 1995;267:1013-1016.

7. Hayashi T, Motulsky AG, Deeb SS. Position of a 'green-red’ hybrid gene in the visual pigment array determines colour-vision phenotype. Nat Genet 1999;22:90-93.

8. The 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 2015;526:68-74.

9. The 1000 Genomes Project Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature 2012;491:56-65.

10. Sudmant PH, Rausch T, Gardner EJ, et al. An integrated map of structural variation in 2,504 human genomes. Nature 2015;526:75-81.

11. Sudmant PH, Mallick S, Nelson BJ, et al. Global diversity, population stratification, and selection of human copy-number variation. Science 2015;349:aab3761-aab3761.

12. Sudmant PH, Kitzman JO, Antonacci F, et al. Diversity of human copy number variation and multicopy genes. Science 2010;330:641-646.

13. Huddleston J, Chaisson MJP, Steinberg KM, et al. Discovery and genotyping of structural variation from long-read haploid genome sequence data. Genome Res 2017;27:677-685.

14. Chaisson MJP, Sanders AD, Zhao X, et al. Multi-platform discovery of haplotype-resolved structural variation in human genomes. Nat Commun 2019;10:1784-1784.

15. Chaisson MJ, Wilson RK, Eichler EE. Genetic variation and the de novo assembly of human genomes. Nat Rev Genet 2015;16:627-640.

16. Mills RE, Walter K, Stewart C, et al. Mapping copy number variation by population-scale genome sequencing. Nature 2011;470:59-65.

17. Lupski JR. Genomic disorders: structural features of the genome can lead to DNA rearrangements and human disease traits. Trends Genet 1998;14:417-422.

18. Sharp AJ, Hansen S, Selzer RR, et al. Discovery of previously unidentified genomic disorders from the duplication architecture of the human genome. Nat Genet 2006;38:1038-1042.

19. Sebat J, Lakshmi B, Malhotra D, et al. Strong association of de novo copy number mutations with autism. Science 2007;316:445-449.

20. Song JHT, Lowe CB, Kingsley DM. Characterization of a human-specific tandem repeat associated with bipolar disorder and schizophrenia. Am J Hum Genet 2018;103:421-430.

21. Aneichyk T, Hendriks WT, Yadav R, et al. Dissecting the causal mechanism of X-linked dystonia-parkinsonism by integrating genome and transcriptome assembly. Cell 2018;172(5):897-909.e21.

22. Ishiura H, Doi K, Mitsui J, et al. Expansions of intronic TTTCA and TTTTA repeats in benign adult familial myoclonic epilepsy. Nat Genet 2018;50:581-590.

23. Chiang C, Scott AJ, Davis JR, et al. The impact of structural variation on human gene expression. Nat Genet 2017;49:692-699.

24. Conrad DF, Andrews TD, Carter NP, Hurles ME, Pritchard JK. A high-resolution survey of deletion polymorphism in the human genome. Nat Genet 2006;38:75-81.

25. Cooper GM, Coe BP, Girirajan S, et al. A copy number variation morbidity map of developmental delay. Nat Genet 2011;43:838-846.

26. Lemmers RJ, van der Vliet PJ, Klooster R, et al. A unifying genetic model for facioscapulohumeral muscular dystrophy. Science 2010;329:1650-1653.

27. Korbel JO, Urban AE, Affourtit JP, et al. Paired-end mapping reveals extensive structural variation in the human genome. Science 2007;318:420-426.

28. Handsaker RE, Van Doren V, Berman JR, et al. Large multiallelic copy number variations in humans. Nat Genet 2015;47:296-303.

29. Schneider VA, Graves-Lindsay T, Howe K, et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res 2017;27:849-864.

30. Chaisson MJ, Huddleston J, Dennis MY, et al. Resolving the complexity of the human genome using single-molecule sequencing. Nature 2015;517:608-611.

31. Sharp AJ, Locke DP, McGrath SD, et al. Segmental duplications and copy-number variation in the human genome. Am J Hum Genet 2005;77:78-88.

32. Conrad DF, Pinto D, Redon R, et al. Origins and functional impact of copy number variation in the human genome. Nature 2010;464:704-712.

33. Manolio TA, Collins FS, Cox NJ, et al. Finding the missing heritability of complex diseases. Nature 2009;461:747-753.

34. Eichler EE, Flint J, Gibson G, et al. Missing heritability and strategies for finding the underlying causes of complex disease. Nat Rev Genet 2010;11:446-450.

35. Lander ES, Linton LM, Birren B, et al. Initial sequencing and analysis of the human genome. Nature 2001;409:860-921.

36. Bailey JA, Yavor AM, Viggiano L, et al. Human-specific duplication and mosaic transcripts: the recent paralogous structure of chromosome 22. Am J Hum Genet 2002;70:83-100.

37. Iafrate AJ, Feuk L, Rivera MN, et al. Detection of large-scale variation in the human genome. Nat Genet 2004;36:949-951.

38. Vollger MR, Dishuck PC, Sorensen M, et al. Long-read sequence and assembly of segmental duplications. Nat Methods 2019;16:88-94.

39. Gordon D, Huddleston J, Chaisson MJ, et al. Long-read sequence assembly of the gorilla genome. Science 2016;352:aae0344-aae0344.

40. Sherman RM, Forman J, Antonescu V, et al. Assembly of a pan-genome from deep sequencing of 910 humans of African descent. Nat Genet 2019;51:30-35.

41. Li R, Li Y, Zheng H, et al. Building the sequence map of the human pan-genome. Nat Biotechnol 2010;28:57-63.

42. Pendleton M, Sebra R, Pang AW, et al. Assembly and diploid architecture of an individual human genome via single-molecule technologies. Nat Methods 2015;12:780-786.

43. Seo JS, Rhie A, Kim J, et al. De novo assembly and phasing of a Korean human genome. Nature 2016;538:243-247.

44. Shi L, Guo Y, Dong C, et al. Long-read sequencing and de novo assembly of a Chinese genome. Nat Commun 2016;7:12065-12065.

45. Jain M, Koren S, Miga KH, et al. Nanopore sequencing and assembly of a human genome with ultra-long reads. Nat Biotechnol 2018;36:338-345.

46. Audano PA, Sulovari A, Graves-Lindsay TA, et al. Characterizing the major structural variant alleles of the human genome. Cell 2019;176(3):663-675.e19.

47. Jain M, Olsen HE, Turner DJ, et al. Linear assembly of a human centromere on the Y chromosome. Nat Biotechnol 2018;36:321-323.

48. Sekar A, Bialas AR, de Rivera H, et al. Schizophrenia risk from complex variation of complement component 4. Nature 2016;530:177-183.

49. LaCroix AJ, Stabley D, Sahraoui R, et al. GGC repeat expansion and exon 1 methylation of XYLT1 is a common pathogenic variant in Baratela-Scott syndrome. Am J Hum Genet 2019;104:35-44.

50. Renton AE, Majounie E, Waite A, et al. A hexanucleotide repeat expansion in C9ORF72 is the cause of chromosome 9p21-linked ALS-FTD. Neuron 2011;72:257-268.

51. DeJesus-Hernandez M, Mackenzie IR, Boeve BF, et al. Expanded GGGGCC hexanucleotide repeat in noncoding region of C9ORF72 causes chromosome 9p-linked FTD and ALS. Neuron 2011;72:245-256.

52. McClellan JM, Lehner T, King MC. Gene discovery for complex traits: lessons from Africa. Cell 2017;171:261-264.

53. Turner TN, Coe BP, Dickel DE, et al. Genomic patterns of de novo mutation in simplex autism. Cell 2017;171(3):710-722.e12.

54. Koren S, Rhie A, Walenz BP, et al. De novo assembly of haplotype-resolved genomes with trio binning. Nat Biotechnol 2018 October 22 (Epub ahead of print).

55. Nguyen N, Hickey G, Zerbino DR, et al. Building a pan-genome reference for a population. J Comput Biol 2015;22:387-401.

56. Garrison E, Sirén J, Novak AM, et al. Variation graph toolkit improves read mapping by representing genetic variation in the reference. Nat Biotechnol 2018;36:875-879.

57. Kircher M, Witten DM, Jain P, O’Roak BJ, Cooper GM, Shendure J. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet 2014;46:310-315.

58. Petrovski S, Wang Q, Heinzen EL, Allen AS, Goldstein DB. Genic intolerance to functional variation and the interpretation of personal genomes. PLoS Genet 2013;9(8):e1003709-e1003709.

59. Kronenberg ZN, Fiddes IT, Gordon D, et al. High-resolution comparative analysis of great ape genomes. Science 2018;360:eaar6343-eaar6343.

60. Bickhart DM, Rosen BD, Koren S, et al. Single-molecule sequencing and chromatin conformation capture enable de novo reference assembly of the domestic goat genome. Nat Genet 2017;49:643-650.

2019年07月04日《NEJM医学前沿》