分享

|必读|破解人类全基因组编码后, 科学家应先研究哪些基因?

 阿亮嘚吧嘚 2019-05-26

如微信公共平台转载,请后台联系授权

人类全基因组关联研究破解编码之后,科学家应该优先研究哪些基因?《美国人类遗传学杂志》刊发了一项研究技术,科学家找到了一种无偏倚方式,解答了困扰已久的人类基因应用难题。正版星力

全基因组关联研究(GWAS)项目通过对大规模人群基因数据的研究,寻找与身高或肥胖等表型相关的多种基因编码序列。研究人员通过全面分析,发现大量微小的基因编码变异,左右着个体身材大小或肥胖等表型。

但这种基因变异与表型之间关联性,并不意味着存在着因果关系,很多基因变异对表型的贡献值十分有限。

如此看来,科学家应当优先研究哪些基因? 目前有许多智能算法有助于提取GWAS结果,每个算法应用不同的标准和主题,很难决定应当选择哪一个基因编码改变。

与此同时,多数用于评估这类算法的方法,都会让研究人员对已具有相应表型的基因产生主观偏见,错失发现真正的“决定因子”。另外,还有一些方法需要访问独立的数据库,那些数据并非随时可用。

哈佛医学院的丽贝卡·费恩博士认为:实际上,他们所采用不同的优先级算法,事先并不知道如何判断哪个最好。她希望解决该问题,并且不依赖于以往‘金标准’,也不想引入除原始GWAS数据之外的任何辅助数据等。

波士顿儿童医院内分泌科主任希尔斯·肖恩博士和他的团队开发了一种他们认为是有效且公正的方法,称为“Benchmarker”,并且发表在《美国人类遗传学杂志》上。

借助“机器学习”

Benchmarker方法是借用了机器学习“交叉验证”的概念,研究人员能够使用GWAS数据本身作为对照。利用GWAS数据集,挑选一条染色体。对算法进行基准测试,然后使用剩余的21条染色体(除了X和Y)数据来预测单染色体上哪些基因最有可能对正在研究的表型有所贡献。

把这个过程依次对每个染色体进行重复测试,算法标记的基因就被汇集起来。然后,将这组优先排序的基因与原始GWAS结果进行比较,验证算法的有效性。

法恩博士解释:该方法是在GWAS上训练“机器学习”算法,保留一条染色体数据,然后回到那条染色体,看看这些基因是否与原始GWAS结果中的强p值相关。

尽管这些p值并不代表确切的‘正确答案’,但它们可粗略地提示一些基因与哪些表型的关联性。最终结果是评估每个算法的执行情况。

基准检测基准

将这一方法应用于20个不同的表型时,法恩博士和他的团队得出结论:通常条件下,综合多种策略会得出最佳结果。研究人员还发现某些算法在寻找特定性状相关基因时效果最佳。

法恩博士期待更多的算法被开发出来,来解答继GWAS基因组分析之后的下一个关键问题:哪些基因和编码变异与人类特征和疾病有因果关系?Benchmarker方法可以作为一种无偏倚的验证方法,帮助医生和科学家找出应该使用哪些算法来回答这个问题。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多