分享

表观基因组学应用于精准医学中的挑战和建议

 生物_医药_科研 2018-12-21

译者:刘传宇,袁月,王明月,魏小雨,许江山,商周春,刘龙奇

原文发表于Nature Biotechnology

致编辑

2017年3月,美国GWG Life(明尼阿波利斯)人寿保险公司开始要求参保者提供唾液样本。该公司利用DNA甲基化的表观遗传状态预测参保者的寿命和健康情况,从而决定是否接受投保人参保1,2。表观基因组的状态并非一成不变,合理的饮食和锻炼等都可以改善表观基因组状态。

距离美国时代周刊将表观遗传学作为封面已经七年,新的表观基因组技术的出现和发展加深了我们对表观基因组的理解3。例如,研究人员已经证实衰老和功能衰竭过程免疫系统T细胞表观基因组状态发生了变化4,5;通过靶向位点的染色质开放程度可以预测肿瘤患者对药物治疗的响应情况6;DNA甲基化图谱可以判断某人是否抽烟并预测其患癌风险7;功能异常的组织器官释放到血液中的游离DNA片段蕴含核小体分布信息,该信息可以追溯DNA的组织来源8。可以预见,越来越多的表观基因组研究发现将用于诊断、治疗甚至评估保险费用。因此,为了充分理解表观基因组医学的应用前景,我们与各个学科的专家共同提出了五项有关本领域持续发展的建议。

我们所有作者的观点通过美国国家人类基因组研究中心(NHGRI)资助的基因组科学卓越中心(CEGS)汇聚到一起。CEGS的目标是开发和应用基因组及表观基因组的新技术。作为新技术的开发者,我们意识到表观基因组领域正趋于成熟,科学基础和相关技术发展非常迅速,很多表观技术都被提议用于临床和商业。因此,我们集结了不同领域人员,包括技术开发者以及使用者,一起提出这项方案。相关人员具体包括来自美国加州斯坦福大学个人动态调控组中心、哈佛医学院(波士顿)基因组科学卓越中心、麻省理工学院(美国马萨诸塞州剑桥市)、Dana-Farber癌症中心(波士顿)、马萨诸塞州总医院(波士顿)、Salk研究所(美国加州La Jolla市)、芝加哥大学的研究人员及医学专家;来自相关公司的在诊断、健康和数据分析方面的专业人员,以及生物安全和生命伦理委员会的专家组成跨学科团队进行了会议讨论。我们的建议既包括对临床应用和消费者需求的考量,还包含对技术的可行性、商业机遇和伦理学的考量。

表观基因组学的希望和挑战

精准医学将极大促进个性化医疗健康的发展,这不仅依赖于遗传检测和治疗,并且与人们对表观基因组的认识息息相关 。虽然DNA测序技术已经广泛应用于多种疾病的基因组和外显子组的变异检测,但均未考虑决定细胞状态和表型的组织类型、环境和时间的动态变化等表观基因组因素9。比如,一位妈妈带着孩子去医院看病,医生进行相关检查后,确诊小孩患有常见自身免疫性疾病。令医生诧异的是,该小孩的孪生兄弟却没有任何症状。医生认为虽然同卵孪生兄弟遗传信息相同,但导致不同疾病表现的原因应该是表观基因组状态的不同引起的基因表达的差异。小孩母亲同意提供该双胞胎兄弟的血液样本进行研究,他们进一步发现血液系统中疾病相关的DNA甲基化和染色质可及性的改变。由于同卵双胞胎的基因型完全相同,这项研究对于揭示表观基因组的改变引起疾病或其他表型差异机理研究有重大意义10,11

虽然上述这类表观基因组的生物标志物和疾病关键基因已经有大量报道,但目前仍未展开大规模的临床医学应用。在表观基因组应用于精准医学之前,我们认为以下几个问题需要解答:(1)如何评估检测的准确性?(2)如何区分瞬时的改变和真正的疾病生物标志物?(3)如何比较不同研究之间以及不同个体之间的结果?(4)如何比较不同检测技术得到的结果?(5)如何保证新的技术能够最大化的有利于精准医学?

表观基因组医学同样也将面临与个体化基因组医学相同的挑战。除了解析临床表型复杂分子机制的技术挑战外,还包括患者隐私和检测、基因组和表观基因组编辑的伦理问题、获得多种患者队列样本以及个体化医疗的费用问题。这些因素已经在相关文献和政策中被提及,本文不再赘述12。在本文中我们主要讨论表观基因组医学面临的机遇以及在实现过程必须要解决的难题。

表观基因组学

表观基因组涵盖了与DNA相关的多个水平的分子信号,从DNA的修饰,到核小体的修饰、染色质的折叠以及调控区域的可及性和转录因子的结合情况等。表观基因组通过整合遗传信息(例如可遗传的序列变异)与环境一起影响细胞的功能相关的信号通路。同时表观基因组不同于基因组,它是高度动态的,能揭示疾病、环境、以及组织随着时间对基因调控的影响,且这些过程不涉及DNA序列水平的改变13。无论这些表观遗传学修饰是细胞状态改变的原因还是结果,它们都具有作为疾病诊断生物标记或治疗干预的靶标的潜在价值。

过去几年,科学家已经开发了几种样本投入量少的表观信号捕获技术;例如,ATAC-seq(基于转座酶的开放染色质分析技术)能够快速揭示基因组上大多数非编码功能元件的蛋白质-DNA结合以及调节活性的信息,且仅仅需要少量起始细胞,这些使它成为一个在临床应用上具有吸引力的技术14-16。其他的技术包括基于表观基因组修饰的测序技术,例如胞嘧啶或组蛋白甲基化测序技术,为组织活检以及无创的(如:游离DNA/液体活检)诊断和预后提供机会17。这些技术的快速发展也需要在临床医学上进一步整合表观基因组学和基因组学。

表观基因组的动态性,组织特异性及连续性,使表观基因组学的研究充满了挑战18

要想合理的解释表观基因组的动态性和组织特异性,需要追踪个体在疾病不同阶段的的生活及环境信息,在数据分析方面也需要设置合理的阈值。因此数据分析标准化、数据存储以及病人长期的参与和反馈成为挑战。解决这些问题不管对于基础研究还是医学应用都至关重要。我们列举了以下五条建议供大家关注:一,开发标准的染色质化DNA样本作为分析基准;二,建立表观基因组数据质量控制的标准分析流程,例如ATAC-seq数据分析流程;三,对基因组的所有调控元件进行统一命名并且建立参考集,并且随着人们对调控元件结构和功能认识认知的进步可以不断更新;四,开发实验和计算生物标记分析方法,利用无创方法从所有组织中获取表观基因组信息;五,建立多样化大样本疾病队列,进行长期的研究。前三条建议与标准化相关,最后两条建议则与临床应用相关(如图1)。

1  表观基因组学应用于精准医学的挑战和建议

建议1:开发一种商业化且价格实惠的标准染色质样本

我们建议开发一种商业化且价格实惠的标准染色质DNA样本,作为不同实验室、不同项目差异比较的标准参照。想象一下某国家研究人员想检测一下一些已患有确定症状的儿童是否也处于与上述双胞胎之一相同的自身免疫疾病的早期阶段,这些儿童很有可能没有健康的双胞胎作为对照,因此需要与其他可获取的健康人数据进行比较,就像与其同卵双胞胎的数据进行比较一样。为了分析这些病人的DNA甲基化和染色质开放程度数据,研究人员必须要保证新的数据能与过去产出的数据进行比较。利用队列样本长期研究与环境相关的基因表达调控机制需要样本制备与分析的标准化。标准化操作将加快推进此类发现应用于临床医学的进程。尽管获得标准操作规程不难,我们仍然建议在所有的表观基因组实验中使用标准化样本确保实验质量、仪器稳定性及标准化。

标准样本在RNA-seq实验中比较常见,使用ERCC spike-in(外源RNA样本)作为对照19。这些外源RNA样本结合有唯一的分子标签(UMI),能够对待测样本分子进行绝对定量。同样,“Genome In a Bottle”联盟也开发了用于DNA测序的标准品20,类似的标准品对于检测表观基因组持续变化的标志物和作为研究内参至关重要。假设一对双胞胎,患有自身免疫疾病的哥哥的一个重要免疫调节基因染色质开放程度为弟弟的四倍,而另一实验室由于技术的不稳定性导致检测结果患者可能为健康人的三倍,使用标准参照样本才能确定此类差异是否显著。甚至同一实验室,不同批次的染色质免疫共沉淀测序技术(ChIP-seq)和ATAC-seq整体信号富集程度、重亚硫酸盐测序的转换效率均存在差异。此外,文库制备和测序仪器的不同,也会导致DNA片段长度和测序深度的差异。因此制定一个区分“正常”和“患病”的标准是绝对有必要的。

标准染色质样本可以来自可再生的小鼠和人的样本,如常见的ENCODE(Encyclopedia of DNA Elements)项目细胞系,包括高质量的DNA可及性、组蛋白修饰、核小体定位、甲基化以及序列多态性的数据。这些标准样本应来自于同一批次或尽可能少的批次,并且是产业化标准的细胞系,以消除代次、核型、培养条件以及不同实验室间的差异。未来,我们应该持续性的制备标准化样本,在使用的样本用尽或其产生较大变化(遗传和表观遗传层面)之前周期性的更新标准化细胞系。正常的核型、相同基因型的样本和遗传多样性的样本具有重要价值。另外,合适的细胞系的选择,将与染色质结构捕获技术(如:Hi-C)与成像技术一起促进三维和四维(4D,包括时间)基因组结构的整合分析。

建议2:标准化分析流程和数据存储

表观基因组的数据需要统一的质控标准,而不同实验室基于各自分析流程的数据分析结果难以比较。另外,与基因组不同,表观基因组是动态变化的,难以确定其标准阈值。研究人员通常需要整合多维度、大样本的队列信息,才能合理的解释表观层面变异的生物学意义。相关分析均需要标准化流程,尤其是质控环节。随着表观基因组实验技术的发展,我们能够获取不同组织、不同维度的表观信息,构建标准分析矩阵时,数据的信噪比和偏好性等也需要考虑在内。标准化的分析流程应该推广到相关领域的实验室,促进不同研究之间的相互比较和验证。

搭建新的分析流程、开发新的实验技术对于推动表观基因组的研究都至关重要,尤其临床样品更需要统一的分析和管理标准。ENCODE计划开发的分析流程是一个好的范例,不过目前各实验室未能充分利用此分析流程。多维度的表观基因组数据的简单化与可视化也要统一标准。除此之外,数据分析矩阵的存储格式也要统一,便于研究人员将新的数据与之前高质量的数据比较分析,通过统一的存储空间和用户友好型的网络界面可以简化数据比较,加快分析进程。

建议3:统一收录和命名调控元件便于比较不同实验室,不同基因组版本,不同物种的数据

我们对调控元件结构和功能认识逐渐加深,急需对调控元件统一标准进行命名,与标准化分析方法同时进行。与基因不同,调控元件至今没有统一标准,参考他人研究成果往往费时费力。定义基因(或转录本)不仅可以用基因序列、DNA正负链、基因结构和参考基因组坐标等,还可以通过基因的唯一标识符(即基因名称)确认。不同数据库对相同转录本定义不同的名称和标识符,令人困惑21-23,调控元件则更加混乱。调控元件大约占了人类基因组大小的10%~20%,目前却没有统一标准。

建立基因组调控元件百科全书是将特定调控区域与某种疾病或表型联系起来的重要基础。例如,某研究发现双胞胎中一人健康另一人患病,这应该与基因组上相关基因位点的开放程度或甲基化程度改变相关。而另一研究发现,某些自身免疫病患者有20%与上述研究相同的基因组位点发生甲基化状态的改变。试想一下,如果没有统一标准的调控元件,不同研究发现之间的联系或许永远无法得知。第二个研究组成员也不会意识到这些位点和自身免疫病的相关性曾经被人研究过。

统一调控元件标准的工作较为复杂,原因如下。第一,与基因开放阅读框不同,调控元件没有确定的起始和终止位点。因此,确认增强子、启动子等其他调控元件的起始终止位点十分必要。第二,不同种类或状态细胞的调控元件大小不同,调控元件之间的相互作用也会形成更加有序、高级的调控单元。高级结构调控单元也应该在调控元件的百科全书中有所描述,才能更好的分析调控元件间错综复杂的关系。第三,调控元件不像蛋白编码基因那样保守,比较不同物种的调控元件时不能使用序列信息,而需要基于调控元件的功能及空间结构比较。第四,并非所有调控元件都有功能,而有功能的元件并非每个核苷酸都发挥调控功能。因此,高通量的鉴定调控元件的功能尤为重要24

功能基因组学研究联盟如ENCODE项目、Roadmap表观基因组计划、国际人类表观基因组联盟(IHEC)、哺乳动物基因组功能研究联盟(FANTOM)等整合基因组染色质可及性数据、RNA-seq、ChIP-seq、Cap基因表达数据和DNA甲基化数据,在预测不同细胞类型的染色质状态,鉴定目标调控元件方面取得了较大进展25-27。例如,通过ENCODE数据库,我们通过输入坐标或附近的基因可以去查询某个调控元件的信息,可以输出该元件在不同组织类型中的表达量与染色质可及性信息。该领域发展速度很快,但依然存在一定的局限性。我们希望统一的标准能在本领域广泛采用,不仅用于国际大型项目,所有单位发表的科研文章同样需要统一调控元件的标准和命名方式。此外,类似于ENCODE项目的注释方法,同样也能够简化有关不同样本、区域、细胞类型、物种间的功能联系分析28

通过整合标准化染色质样本、标准化分析框架、标准化命名系统进行非编码基因组研究,将加快我们对于表观基因组变化和生物学意义的理解,促进表观基因组学相关技术应用于临床实践。

建议4:开发基于易获取组织样本(如血液、皮肤、唾液和尿液)的表观基因组修饰检测方法

基因组测序只需要从一种组织中获取一个时间点样本即可,而表观基因组测定则需要获取组织不同时间点的多个样本。这带来了两方面的需求:第一,开发利用血液、皮肤、唾液和尿液等易获取组织类型检测其他组织类型(如大脑组织)表观基因组特征的方法; 第二,跟踪调查参与者的表观基因组长期的变化情况。

为了对健康参与者跟踪研究,使得表观基因组医学发挥其最大潜力,无创收样必须能获得所有组织类型的表观基因组信息。最终目标是通过快速和多次收集替代组织样本,获得大脑、胰腺癌等组织细胞特异性的表观基因组特征,实现组织溯源。一般情况,健康人群不会去医院进行组织检查,无创采样就显得尤为重要。通过检测血液中游离DNA(cell-free DNA)的突变特征、性染色体特征和遗传多态性特征确定其肿瘤或胎儿来源29,30。相关癌症研究已经证实,来自某种已知肿瘤具有共同突变特征的循环DNA的量与肿瘤大小和肿瘤细胞凋亡情况相关。

对于不涉及DNA序列改变的情况,利用替代组织检测表观基因组特征标志物具有非常大价值。检测与健康情况相关的表观基因组特征,鉴定损伤组织释放的DNA来源。如上述患有自身免疫性疾病的双胞胎患者,可能会由于免疫系统的自我攻击而出现相关并发症。医生可以通过检测血液中游离DNA的表观基因组特征,确诊异常的组织器官,进而进行特异性治疗。

综上所述,血液中DNA甲基化水平和核小体分布特征与组织来源、健康生活方式(如是否抽烟)相关联2,7,8。基于液体活检的表观基因组检测技术已经广泛应用于临床方面,学术和产业界的研究人员应努力开发更广泛的生化和分析方法,利用血液、皮肤、唾液和尿液样本溯源多种细胞类型的表观基因组特征。

建议5:优化结果反馈和疾病数据分享机制推动受试者长期参与检测

生物医药研究领域最大的挑战之一是如何长期跟踪和收集多种类型患者在不同阶段的样品,这对于研究表观基因组动态变化特征至关重要,需要参与者高度配合。这方面具有挑战的一个原因是参与者对与参与研究的主动性不够,加强对参与者的研究结果反馈机制可以提高其参与度。比如建立在线数据反馈系统,参与者可以提交自己的表观基因组数据(如血液的ATAC-seq数据)给多个研究项目,获得多方面的自身健康状况信息。在参与者知情的情况下,也能够促进研究人员之间的数据分享。

个人表观基因组检测在临床医学甚至指导健康生活方式方面具有重大应用前景。表观基因组可以解释同卵双胞胎不同的疾病特征,筛选适合的药物,预测环境对于疾病发展的影响。但是,不同时间和健康状态下的表观基因组的复杂性和动态性的特征,使得其在数据标准化、分析与共享、样品收集和患者参与度方面充满挑战。

参考文献:

  1. Anonymous. GWG Life becomes first insurtech firm to collectepigenetic samples to analyze biomarkers  of life insurance policy owners.  

    https:///news-release/2017/03/02/930557/0/en/GWG-Life-Becomes-First-Insurtech-Firm-to-Collect-Epigenetic-Samples-to-Analyze-Biomarkers-of-Life-Insurance-Policy-Owners.html (2017).

  2. Chen, B.H. et al. Aging 8, 1844–1865 (2016).

  3. Cloud, J. Why your DNA isn't your destiny. Time http://content./time/subscriber/article/0,33009,1952313-2,00.html (2010).

  4. Moskowitz, X. et al. Sci. Immunol. 2, 1–2 (2016).

  5. Sen, D.R. et al. Science 354, 1165–1169 (2016).

  6. Qu, K. et al. Cancer Cell 32, 27–41.e4 (2017).

  7. Joehanes, R. et al. Circ. Cardiovasc. Genet. 9, 436–447(2016).

  8. Snyder, M.W., Kircher, M., Hill, A.J., Daza,R.M. & Shendure, J. Cell164, 57–68 (2016).

  9. Soon, W.W., Hariharan, M. & Snyder, M.P. Mol.Syst. Biol. 9, 640 (2013).

  10. Fraga, M.F. et al. Proc. Natl. Acad. Sci. USA 102,10604–10609 (2005).

  11. Castillo-Fernandez, J.E., Spector, T.D. & Bell,J.T. Genome Med. 6, 60 (2014).

  12. McGuire, A.L., Caulfield, T. & Cho, M.K. Nat. Rev.Genet. 9, 152–156 (2008).

  13. Allis, C.D. & Jenuwein, T. Nat. Rev. Genet. 17,487–500 (2016).

  14. Buenrostro, J.D., Giresi, P.G., Zaba, L.C., Chang,H.Y. & Greenleaf, W.J. Nat. Methods 10, 1213–1218(2013).

  15. Adey, A. & Shendure, J. Genome Res. 22, 1139–1143(2012).

  16. Schmidl, C., Rendeiro, A.F., Sheffield,N.C. & Bock, C. Nat. Methods12, 963–965 (2015).

  17. Fraser, M. et al. Nature 541, 359–364 (2017).

  18. Soshnev, A.A., Josefowicz, S.Z. & Allis, C.D. Mol.Cell 62, 681–694 (2016).

  19. Jiang, L. et al. Genome Res. 21, 1543–1551 (2011).

  20. Zook, J.M. et al. Sci. Data 3, 160025 (2016).

  21. Gray, K.A., Seal, R.L., Tweedie, S., Wright,M.W. & Bruford, E.A.Hum. Genomics 10, 6 (2016).

  22. Mockus, S.M., Patterson, S.E., Statz, C., Bult,C.J. & Tsongalis, G.J.Clin. Chem. 62, 442–448 (2016).

  23. Wright, M.W. & Bruford, E.A. Hum. Genomics 5,90–98 (2011).

  24. Kellis, M. et al. Proc. Natl. Acad. Sci. USA 111, 6131–6138(2014).

  25. The ENCODE ProjectConsortium. Nature 489, 57–74 (2012).

  26. Roadmap EpigenomicsConsortium. Nature 518, 317–330 (2015).

  27. The FANTOMConsortium. Nature 507, 455–461 (2014).

  28. Malladi, V.S. etal. Database 2015, bav010 (2015).

  29. Newman, A.M. etal. Nat. Med. 20, 548–554 (2014).Fan, H.C. etal. Nature 487, 320–324 (2012).

  30. Fan, H.C. et al. Nature 487, 320–324 (2012).

原文 

Challenges and recommendations for epigenomics in precision health

Ava C Carter1, Howard Y Chang1, George Church2,Ashley Dombkowski3, Joseph R Ecker4, Elad Gil5,Paul G Giresi6, Henry Greely7, William J Greenleaf1,8,Nir Hacohen9, Chuan He10, David Hill11, JustinKo12, Isaac Kohane13, Anshul Kundaje14, MeganPalmer15, Michael P Snyder1,8, Joyce Tung16,Alexander Urban1,17, Marc Vidal11 & Wing Wong1,18

1Centerfor Personal Dynamic Regulomes, Stanford University, Stanford, California, USA.

2Departmentof Genetics, Harvard Medical School, Boston, Massachusetts, USA, and
WyssInstitute, Boston, Massachusetts, USA.

3BEFOREBrands, Menlo Park, California, USA.

4TheSalk Institute for Biological Studies, La Jolla, California, USA, and HowardHughes Medical Institute.

5Color Genomics, Burlingame, California, USA.

6Epinomics,Menlo Park, California, USA.

7Centerfor Law and the Biosciences, Stanford University, Stanford, California, USA

8California,USA. Department of Genetics, Stanford University, Stanford, California, USA.

9MassachusettsGeneral Hospital, Boston, Massachusetts, USA.

10Universityof Chicago, Chicago, Illinois, USA, & Howard Hughes Medical Institute

11Centerfor Cancer Systems Biology, Dana Farber Cancer Institute, Boston,Massachusetts, USA.

12Departmentof Dermatology, Stanford University, Stanford, California, USA.

13Department of Medical Informatics, Harvard MedicalSchool, Boston, Massachusetts, USA.

14Departmentsof Genetics and Computer Science, Stanford University, Stanford, California,USA.

15Centerfor International Security and Cooperation, Stanford University, Stanford,California, USA.

1623andMe,Mountain View, California, USA.

17Departmentof Psychiatry and Behavioral Sciences, Stanford University, Stanford,California, USA.

18Departmentof Statistics, Stanford University, Stanford, California, USA.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多