分享

纯生信也能拿下nature子刊?5张图30分 的GWAS联合机器学习分析,看大佬是如何高分文章!

 葛医生_EP日记 2023-09-03 发布于广西
还在为纯生信文章发不出去而发愁吗?今天小记者在SCN里疯狂穿梭,一不留神就看到一篇纯生信文章,虽然是nature的子刊,但质量依旧拉满,让我们一起来看看吧!

这篇30分 的纯生信文章思路清晰,选题新颖。作者巧妙地使用了大规模的基因组关联研究和公共数据,通过机器学习方法识别风险位点,并将铁代谢和神经精神疾病与BED的发展联系起来,从而深入阐释BED的发病机制和治疗方法。作者通过无监督机器学习,并利用GEO数据进行了大量的验证说明,其间穿插大规模的基因组关联研究,利用孟德尔随机化分析、倒数方差加权的联合分析等方法探究了疾病遗传学基础,值得小伙伴们借鉴。(ps:没有思路不用怕,生信日报可以为小伙伴们提供各种生信服务,赶快call小记者吧!)

图片

题目:对模型衍生的暴食症表型进行全基因组分析,确定风险位点并暗示铁代谢

杂志:nature genetics

影响因子:IF=30.8

发表时间:2023年8月

后台回复”999“领取文献

图片
图片

研究背景

暴食症(BED是一种常见的进食障碍,其特征是在短时间内摄入大量食物,伴随着缺乏控制的感觉。虽然暴食症的发病率很高,但其遗传学基础仍不完全清楚。本研究旨在使用基因组关联研究和监督式机器学习方法,探索暴食症的风险位点和共同遗传性。研究结果有望为暴食症的预防和治疗提供新的思路和方法。
图片

数据来源

数据集/队列

数据库

详细信息

GSE114996

GEO

遗传学分析的外部验证,开放染色质区域

GSE147672

GEO

遗传学分析的外部验证集,成年人大脑的开放染色质图谱

BED GWAS数据

百万退伍军人计划

822 例BED 的患者

图片

研究思路

作者应用监督机器学习方法(使用 822 例被诊断为 BED 的个体),根据百万退伍军人计划的电子病历来估计每个人患有 BED 的概率。作者对非洲 (n = 77,574) 和欧洲 (n = 285,138) 血统的个体进行了全基因组关联研究,同时控制体重指数,以确定 HFE、MCHR2 和 LRP11 基因附近的三个独立位点,并建议 APOE 是一种风险BED 基因。作者通过孟德尔随机化分析、倒数方差加权的联合分析等方法确定了暴饮暴食和几种神经精神特征之间的共同遗传性,并暗示暴饮暴食的病理生理学中铁代谢。
图片

主要结果

1. 计算表型分析方法
本研究使用的计算表型分型方法。为了识别 MVP 中极有可能患有 BED 的个体,并在执行 GWAS 时提高功效,作者开发了一种依赖于临床诊断为 BED 的个体的机器学习方法。该方法基于EMR数据,使用监督式机器学习算法对暴食症进行分类。作者首先构建了一份可靠诊断为 BED 的个体名单(n = 822)和一份未诊断出饮食失调的对照名单(n = 766,705)。为了计算 MVP 中每个人的 BED 分数,作者在 BED 加对照队列中建立了 LASSO 逻辑回归模型(n = 767,527)。作者的无假设模型生成了 BED 的多个预测因子(图 1a),其中许多预测因子与 BED 存在已知关联。为了反向验证作者的 BED 分数专门预测 BED 而不是构建它们的其他性状,作者测试了 BED 分数与一组 1,752 个 phecodes 加上 BED 的 ICD-10 代码之间的关联,发现 BED 评分比其他疾病更好地预测 BED(图 1b)。前三个非 BED phecode 与 BMI 相关。具体而言,研究团队使用了一种基于自然语言处理(NLP)的算法,对EMR中的文本进行分析,以识别暴食症患者的特定症状和行为。然后,研究团队使用这些特征来训练机器学习模型,以预测患者是否患有暴食症。

然后,作者评估了作者的模型相对于保留组的预测性能(图 1c)。此外,当作者在与现实世界患病率更接近的测试集上评估模型性能时,对模型性能的评估应在可能存在未确诊个体的背景下进行解释。因此,作者利用 MVP EMR 中的广泛信息,使用无假设监督模型对临床医生诊断为 BED 的较小群体中未确诊但极有可能的 BED 病例进行分类,该模型依赖于先前与 BED 相关的许多因素
          

图片

图片

图1 用于预测 MVP 内 BED 的机器学习模型

2. BED 的遗传结构与 BMI 无关
作者探讨了与暴食症相关的遗传学基础,同时控制了与暴食症高度相关的肥胖症的影响。研究使用了一个监督式机器学习方法和全基因组关联研究来研究暴食症的风险位点和共同遗传性。在人类中,暴食症包括在BMI内的表型与BMI之间存在强烈的遗传相关性。因此,研究使用了逆秩次正态转换模型得出的暴食症得分(MD-BED)来控制BMI,对非洲人种(n = 77,574;图2a)和欧洲人种(n = 285,138;图2a)进行了祖源特异性的全基因组关联研究(AFR-MD-BED*BMI和EUR-MD-BED*BMI)。研究发现,发现了三个与BED独立于BMI的基因位点,分别位于HFE、MCHR2和LRP11基因附近,具有基因组范围内的显著关联,其中两个位点在后来的欧洲基因型中得到了复制。此外,研究还通过MAGMA和其主导SNP的后续复制来证明APOE与暴食症有关。

图片

2 BED 的双祖 GWAS

3. GWAS验证
作者使用了三个外部队列(UKBB、PNC和ABCD)来验证他们的欧洲血统MD-BED*BMI GWAS的结果,通过计算多态风险评分(PRS)来评估BED的遗传预测能力(图3b)。作者发现MD-BED*BMI PRS在UKBB和PNC队列中有显著的预测效果,但在ABCD队列中没有达到显著水平(图3b)。作者认为这可能与ABCD队列的年龄较小和BED诊断标准不一致有关。作者对三个外部队列进行了倒数方差加权的联合分析(meta-analysis),并发现MD-BED*BMI PRS具有稳健的预测效果(图3b)。接着还对MCHR2基因附近的一个SNP进行了联合分析,并发现它与BED有显著的关联(表1)。通过使用ICD-BEDBMI PRS作为对照,发现它在任何一个外部队列或联合分析中都没有达到显著水平(图3b),说明MD-BEDBMI PRS比ICD-BED*BMI PRS具有更高的预测能力。

图片

1 MD-BED*BMI GWAS 和 MAGMA 中鉴定的基因座

图片

图3 MD-BED 表型的验证

4. BED 和其他性状之间共有的遗传结构
为了研究 MD-BED 评分与其他特征之间的遗传重叠,作者计算了 EUR-MD-BED*BMI GWAS 与一组精选的 44 种精神疾病、行为表型和健康相关特征之间的遗传相关性,并将其进行对比与作者的 EUR-BMI 结果(图 4)。作者发现 EUR-MD-BED*BMI 与脑出血、抑郁、大麻使用、双相障碍、神经质、多动症、外向性、精神分裂症和厌食症 GWAS。EUR-MD-BED*BMI GWAS 中这些性状之间的遗传相关性强度比 EUR-BMI GWAS 中的更强。作者发现 EUR-MD-BED*BMI 与教育程度、智商、认知表现之间存在显著的负遗传相关性。作者计算了 EUR-MD-BED*BMI GWAS 与来自 MRC 综合流行病学单元开放 GWAS 项目34的 1,427 个性状之间的遗传相关性,这些性状符合作者的质量控制标准,并广泛证实了 BED 与抑郁症和神经质。除其他特征外,作者还发现与冒险和终生吸烟相关。为了验证 BED 与认知功能之间的负向遗传关联,作者评估了 EUR-MD-BED*BMI PRS 与 UKBB 队列中获得的神经认知测量之间的关系,并发现几乎所有测试领域都存在强烈的负关联。

图片4 与其他性状的遗传相关性

5. 通路和细胞类型
作者分析了BED的遗传风险变异在哪些途径和细胞类型中发挥作用,使用了FUMA工具、Mendel随机化方法和基因表达数据(图4a)。通过FUMA工具,发现BED的遗传风险变异在血红素代谢和尿酸代谢相关的基因集有富集,也与神经系统和肠道神经系统的染色质可及性有关。这些结果提示铁代谢和血红素代谢在BED的发病机制中可能有重要作用(图5a)。使用Mendel随机化方法,发现BED与铁过载有因果关系,而BMI与铁缺乏有关。这些结果进一步支持铁代谢和血红素代谢在BED中的作用,并与FUMA工具的富集分析一致(图5b)。使用基因表达数据,发现BED的遗传风险变异在野生型小鼠的高血红素状态下的开放染色质区域有富集,而在血红素表达降低的突变体中没有富集。这些结果表明BED的遗传风险变异可能通过调节血红素依赖性的转录因子来影响基因表达(图5c)。使用分割遗传率分析,发现BED的遗传风险变异在多种神经细胞类型中有富集,包括边缘系统神经元、抑制性神经元、星形胶质细胞、肠道神经元和肠道胶质细胞。这些结果指向遗传风险变异在神经组织中可能有多效性作用,并暗示中枢神经系统和肠道神经系统之间可能存在共同的功能障碍(图6)。

图片图5 BED 中铁超载

图片

文章小结

这篇文章使用了大规模的基因组关联研究和机器学习方法来研究暴食症的遗传学基础。研究人员发现了一些与BED相关的基因和生物过程,包括铁代谢和神经精神疾病。此外,他们还发现了BED与肥胖等其他疾病之间的遗传共性。这些发现为进一步了解BED的发病机制和开发更有效的治疗方法提供了重要的线索。然而,需要注意的是,这项研究的样本量相对较小,只涉及到一个特定的人群,因此需要更广泛的研究来确定这些发现是否适用于其他人群。此外,该研究只关注了BED的遗传学基础,而没有考虑其他因素,如环境和行为因素对该疾病的影响。因此,需要进一步的研究来确定这些因素对BED的发病机制的影响需要进一步的研究来验证这些发现。总的来说,这项研究为作者深入了解BED的遗传学基础提供了重要的启示。(ps:现在纯生信的文章越来越难发,越来越需要研究者花费大量的时间去创新思路,生信日报拥有丰富的资源与经验,没有思路的小伙赶快行动吧!)
图片

小记者话生信

【生信日报】可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务,对数据库构建和生信分析感兴趣的朋友可以咨询小记者哦!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多