【原】Nat Rev Genet | 德国科学家发文解析基因组学新的计算模型技术―深度学习

微科享 2021-04-19

展开全文

推荐：江舜尧

编译：微遗传

编辑：马莉

2019年4月10日德国环境健康研究中心计算生物学研究所Gökcen Eraslan教授等在遗传学领域顶级期刊《Nature Reviews Genetics》上发表了题为“Deep learning: new computational modelling techniques for genomics”的文章。该论文阐述了深度学习建模技术及其目前在基因组学中的应用现状。

摘要

文中提出，基因组学作为一门数据驱动的科学，在很大程度上利用机器学习来捕获数据，从而推导出新的生物学假设。然而，从成倍增长的基因组数据中提取新观点的能力需要更富表现力的机器学习模型。通过对大型数据集的有效利用，深度学习改变了计算机视觉和自然语言处理等领域。目前，深度学习正成为许多基因组建模工作的选择方法，包括预测基因变异对基因调控机制(如DNA可接近性和剪接)的影响。

文中主要图片说明

图1隐层神经网络用于建立非线性依赖关系模型。a单层神经网络(logistic回归); b多层神经网络

图2用脑回神经网络模拟转录因子结合位点和间距

图3神经网络层及其参数共享方案

图4多任务模型，多峰模型和转移学习

图5通过特征重要性评分对模型进行解释

图6无监督学习

基因组学对深度学习的采用，使其在科学和经济上都得到了早期应用。基于基因组深度学习对诊断和药物开发的预期经济影响，以及其与成像数据的轻松集成，多个公司和行业研究小组正在成立，它们往往被冠以更宽泛的人工智能的标签。特别是药物基因组学可能受益于更有效和自动化的识别基因组中新的调控变异，以及使用表观基因组学数据更准确地预测药物的反应和靶点。

在未来，将有望通过深度学习发现跨多个组学数据类型的新应用。也将看到越来越多的新技术从深度学习研究团体获得。人类基因组学面临的一个特殊挑战是数据隐私。一个吸引人的方向是联合学习的发展，机器学习模型实例部署在不同的站点上，并根据本地数据进行训练，同时共享公共参数。通过避免数据传输，联合学习可以减少总训练时间，促进对遗传和医疗数据隐私的尊重。数据隐私的另一个相关技术是生成模型，它可以用来模拟人类基因组数据，其他人可以在不侵犯隐私的情况下分析这些数据。另一个重要领域是因果效应的预测，这与医学和治疗应用高度相关。实质性的进展可能发生在机器学习领域和基因组学领域，尽管这些新发展的影响还有待观察，基因组数据的规模和复杂性将确保深度学习将成为其分析的日常工具。