分享

科学家正在对100万个人类基因组进行测序,并使用大数据来破解遗传秘密

 PaperRSS 2021-04-20

一个完整的人类基因组,在这里看到成对的染色体,提供了丰富的信息,但很难将遗传学与性状或疾病联系起来。图片来源:HYanWong/Wikimedia Comons

人类基因组的第一稿于20年前于2001年发布,历时近三年,耗资5亿至10亿美元。 人类基因组计划已使科学家能够几乎端对端阅读30亿对DNA碱基(或“字母”),这些碱基从生物学上定义了一个人。

该项目使像我这样的新一代研究人员(目前是美国国家癌症研究所的博士后研究员)可以确定新的癌症治疗靶标,利用人类免疫系统对小鼠进行工程改造,甚至可以建立一个网页,使任何人都可以通过它浏览整个人类基因组。 使用Google地图的便捷程度。

第一个完整的基因组是由少数匿名捐赠者产生的,试图产生一个代表多个个体的参考基因组。 但这远远没有涵盖世界上人口的广泛多样性。 没有两个人是相同的,也没有两个基因组是相同的。 如果研究人员想了解人类的所有多样性,则需要对成千上万的完整基因组进行测序。 现在,这样的项目正在进行中。

了解遗传多样性人与人之间遗传变异的丰富性使每个人都与众不同。 但是基因改变也引起许多疾病,并使某些人群比其他人群更容易感染某些疾病。

在人类基因组计划期间,研究人员还在对生物的完整基因组进行测序,例如小鼠,果蝇,酵母菌和一些植物。 产生这些第一个基因组的巨大努力导致了读取基因组所需技术的一场革命。 由于有了这些进步,测序整个人类基因组无需花费数年的时间和数亿美元的费用,而现在只需要几天的时间,而只需花费一千美元。 基因组测序与基因分型服务(例如23和Me或Ancestry)有很大的不同,后者仅查看一个人基因组中的一小部分位置。

技术的进步使科学家能够对来自世界各地成千上万个人的完整基因组进行测序。 目前,诸如基因组聚集协会等倡议正在努力收集和整理这些分散的数据。 到目前为止,该小组已经能够收集将近15万个基因组,这些基因组显示出令人难以置信的人类遗传多样性。 在该范围内,研究人员发现人们的基因组差异超过2.41亿,平均每八对碱基就有一个变异。

这些变化中的大多数都是非常罕见的,不会对人产生任何影响。 然而,其中隐藏的是具有重要的生理和医学后果的变体。 例如,BRCA1基因的某些变异使某些女性群体(如Ashkenazi犹太人)易患卵巢癌和乳腺癌。 该基因的其他变异导致一些尼日利亚妇女罹患乳腺癌的死亡率高于正常水平。

遗传学和疾病之间的联系是微妙的,但是你能研究的基因组越多,就越容易找到这些联系

研究人员识别这些类型的人群水平变异的最佳方法是通过全基因组关联研究,该研究将大批人群的基因组与对照组进行比较。 但是疾病很复杂。 一个人的生活方式,症状和发作时间可能相差很大,并且遗传学对许多疾病的影响难以区分。 由于缺乏足够的基因组数据,当前基因组研究的预测能力太低,无法发挥许多作用。

了解复杂疾病的遗传学,尤其是与种族之间遗传差异有关的遗传学,本质上是一个大数据问题。 研究人员需要更多数据。

科学家正在对100万个人类基因组进行测序,并使用大数据来破解遗传秘密。遗传学与疾病之间的联系是细致入微的,但是您可以研究的基因组越多,发现这些联系就越容易。 

图片来源:brian0918 / Wikimedia Commons 

1,000,000个基因组为了满足对更多数据的需求,美国国立卫生研究院启动了一项名为“我们所有人”的计划。 该项目旨在在10年的时间里从美国超过100万人的调查和可穿戴设备中收集遗传信息,病历和健康习惯。 它还的目标是从代表性不足的少数群体中收集更多数据,以促进对健康差异的研究。 我们所有的项目于2018年向公众开放,此后已有270,000人提供了样本。 该项目正在继续招募来自所有50个州的参与者。 许多学术实验室和私人公司都参与了这项工作。

这项工作可以使广泛领域的科学家受益。 例如,神经科学家可以在考虑运动水平的同时寻找与抑郁症相关的遗传变异。 肿瘤学家可以在探索种族背景的影响的同时,寻找与降低皮肤癌风险相关的变异体。

一百万个基因组以及随之而来的健康和生活方式信息将提供非常丰富的数据,这将使研究人员不仅能够发现基因变异对疾病的影响,而且还可以发现不同人群的疾病。

人类基因组的暗物质这个项目的另一个好处是,它将使科学家们能够了解人类基因组中目前很难研究的部分。 大多数遗传研究都针对基因组中编码蛋白质的部分。 但是,这些仅占人类基因组的1.5%。

我的研究集中在RNA上,RNA是一种将人的DNA中编码的信息转化为蛋白质的分子。 但是,来自人类基因组98.5%的不会制造蛋白质的RNA本身具有多种功能。 其中一些非编码RNA参与了诸如癌症如何扩散,胚胎发育或控制女性X染色体等过程。 我特别研究遗传变异如何影响允许非编码RNA发挥作用的复杂折叠。 由于“我们所有人”项目包括基因组的所有编码和非编码部分,因此它将成为迄今为止与我的工作相关的最大数据集,并有望阐明这些神秘的RNA。

第一个人类基因组引发了20年来令人难以置信的科学进步。 我认为几乎可以肯定的是,庞大的基因组变异数据集将揭示有关复杂疾病的线索。 得益于大规模的人口研究和诸如“我们所有人”之类的大数据项目,研究人员正在铺平道路,以在未来十年内回答我们的个体遗传学如何影响我们的健康。

文章来源AI翻译;如有侵权请及时联系PaperRSS小编删除,转载请注明来源。

温馨提示:

    为方便PaperRSS粉丝们科研、就业等话题交流。我们根据10多个专业方向(植物、医学、药学、人工智能、化学、物理、财经管理、体育等),特建立了30个国内外博士交流群。群成员来源欧美、日韩、新加坡、清华北大、中科院等全球名校。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多