分享

如何科学地分析一份基因组数据?

 医学abeycd 2023-02-13 发布于湖北

下图是一份微基因的基因检测报告,基于全基因组芯片分型原始检测结果生成:

图片

微基因检测报告图示,点击跳转示例报告页面

那么,如何科学的把原始数据中这些 ACGT 文件,变成一份解读报告呢?

图片

微基因十大类检测项目一览,含 500+ 项解读报告

图片

先来说说,在一个人的基因组中,22 对是常染色体;还有一对性染色体,比如男性性染色分别编号为 X 和 Y,以及细胞核外的线粒体。

而细胞核里的染色体,最重要的部分是缠绕折叠的一个巨大的 DNA 分子。

DNA 由 ACGT 四种碱基组成;这四种碱基通过 A 和 T 互补,C 和 G 互补,形成碱基对,然后连接成我们熟知的双螺旋结构。

图片

在最长的 1 号染色体中,超过两亿四千九百万个碱基对,形成了一个超庞大的 DNA 分子。

图片

把单个细胞核中的 46 个 DNA 分子连接起来,总长度能达到 2 米左右。

一个人体内约有 50 万亿个细胞,每个细胞拥有几乎相同的 DNA 拷贝,总长度可以超过 1000 亿千米。这个长度比太阳到冥王星距离(半长轴)的 20 倍还多。

图片

这些 DNA 分子,其中大约只有 2% 的片段会直接编码信使 RNA,进而可以转录翻译成蛋白质,这样的区域一般被称为基因。

剩下 98% 的 DNA,在过去被认为是「垃圾 DNA」,最近被发现也能转录成非编码 RNA,并且对其他基因表达的调控起重要作用。

人类 DNA 有 99% 左右是完全一致的,这部分决定了我们为什么是直立行走的人类。剩下的 1% 的变异,塑造了人类肤色、血型、食物偏好甚至是性格特征的多样性。

在 DNA 变异中,最常见的是单核苷酸变异,其中变异频率超过 1% 的,被称为 SNP(Single-Nucleotide Polymorphism)——单核苷酸多态性。

图片

举个例子,位于 12 号染色体上的乙醛脱氢酶 ALDH2 基因上的 SNP 位点——rs671,如果是 G-C,G-C 组合,代谢乙醛的酶活性很强,喝酒就不会脸红。

而如果是 A-T,A-T 组合,不仅会喝酒脸红,乙醛积累导致的毒性还会增加食管癌、膀胱癌、结直肠癌、动脉粥样硬化等疾病风险。

图片

ALDH2 基因的 rs671 位点如何致使动脉粥样硬化|doi.org/10.1172/JCI125433

这些 SNP 靠基因变异出现,然后在自然选择的压力下,有优势的变异越来越多,而不适合环境的变异越来越少。

要解读一份基因组数据,就得先了解这些 SNP 影响的方面,以及影响的大小,这一般被称为位点的效应量(Effect size)。

在遗传相关的疾病方面,科学家们总结了 SNP 的频率和影响的关系:一个 SNP 造成影响越大,疾病越严重,就越会被自然选择清除,频率也就越低。

对应图里的这个部分。这类疾病一个变异就决定了生病与否,这样的变异遗传过程中符合孟德尔遗传规律,因此也被叫做「孟德尔疾病(Mendelian Disease)」。

图片

苯丙酮尿症(Phenylketonuria,PKU)就比较典型,出生 3 个月后的患者,尿液、汗液中会散发出鼠臭味,随之出现智能和语言发育障碍,患者必须限制苯丙氨酸的摄入量。

这个疾病是由 PAH 基因变异导致的,发病率不足万分之一,是名副其实的「罕见病」。

而常见的疾病,遗传模式一般就不是孟德尔疾病式的了。比如抑郁症、高血压这种有明确遗传因素的疾病,却没有明确一一对应的致病基因。

对应了图里的这个部分,是一系列高频率,低影响的 SNP 决定了这类疾病的遗传风险。

基于常见疾病-常见变异(Common disease-Common variant)假设,科学家们使用一种叫做全基因组关联分析(Genome-Wide Association Study),也就是 GWAS 的方法,来发现常见疾病的遗传相关 SNP。

在 2019 年发表的一项研究中,研究者共纳入了 24.6 万郁抑症患者,并把他们的基因组和另外 56.1 万非抑郁症患者比较。

结果发现,基因组上从 1 号染色体到 22 号染色体,都有和抑郁症风险显著相关的 SNP,总共有超过 102 个互相不连锁的变异被发现:

目前主流的商业检测芯片,比如基因检测行业巨头 illumina 的 GSA、CGA 等芯片版本,一般能检测 75 万个 SNP。

而利用刚才提到的 GWAS 研究结果预测抑郁症风险,则至少需要知道这 102 个位点的基因型,其中很大一部分并不在这些芯片检测的 75 万 SNP 中。

这个问题可以通过基因型填补(Genotype Imputation)的算法解决。

举个例子,假设张三(A),有个女朋友王五(C)喜欢逛街,有个死党李四(G)喜欢电竞;如果我们发现张三在化妆品店,那可以推测他边上的人更可能是王五。

而如果我们发现张三在网吧,那他边上更可能出现李四。

图片

而基因组也有类似的特性,SNP 和 SNP 之间在不同的位置也有亲疏关系,被称为连锁不平衡(Linkage Disequilibrium, LD)。

利用 SNP 之间的连锁关系形成的概率分布,通过隐马尔科夫模型(Hidden Markov Model, HMM)的算法,结合海量群体基因组的数据,就可以用于推算个体未检测部分的 SNP 基因型了。

利用这套算法,微基因使用其定制的 CGA 芯片,可以准确推算出超过 2300 万 SNP 位点,提供更全面的疾病风险预测。

比如,微基因的「抑郁症」项目在 2020 年更新后,使用了 126 个 SNP 来预测遗传风险。

但是隐马尔科夫算法的计算,需要消耗大量的计算资源;所以大部分基因检测公司都不愿意提升成本来进行基因型填补,而只是用一两个直接检测的 SNP 给出结果,这也是不同机构的基因检测报告结果差异很大的原因之一。

比起市面上很多基因检测公司,微基因不光提供了多达 500+ 项的报告解读,也在持续不断增加解读位点,为大家带来更全面的解读服务。

以微基因「2 型糖尿病」项目为例,报告随研究不断更新

GWAS 第一篇成功的研究,是 2005 年的老年性黄斑病变研究;自此之后,GWAS 的研究成果越来越丰富。

图片

感兴趣的朋友,可以在 GWAS Catalog 网站找到截至目前的相关研究汇总。

图片

得益于微基因的 CGA 芯片设计,以及基因型填补技术,微基因可以持续追踪最新的科学研究发现。

图片

从 2016 年成立至今,微基因提供的检测项目从原来不足 200 项,到至今超过 500 个项目,平均年化增速达到 27.7%。

图片

从 1ml 口水到最终拿到的报告,用户可以在微基因的专业解读里了解到包括「健康风险」、「药物指南」、「遗传特质」等 10 大项目,500+ 项报告。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多