分享

基于集群优化算法的影像遗传学研究

 taotao_2016 2020-06-28

MICS科研简讯第十二期

随着医学影像技术和高通量测序技术的飞速发展,研究者们逐渐将单一模态的脑科学研究,发展为融合脑成像、基因和蛋白质等多种数据的多模态脑科学数据研究。影像遗传学是一门将神经影像学和遗传学相结合的新兴交叉学科,根据磁共振成像(magnetic resonanceimaging,MRI)、基因数据之间的互补性将二者联系起来,架起一座连通神经影像与基因的桥梁,使得研究人员可以从宏观和微观两种水平探究大脑的工作原理。

在影像遗传学研究中,目前通常将不同模态数据间的相关性作为样本特征,使得特征数量繁多,容易引发“维灾”等问题。由此可见,对样本数据进行属性约简,从影像遗传学数据中挖掘出最有价值的信息是十分具有挑战并且有意义的工作。集成学习是一种十分有效的机器学习模型,在某些情况下对高维度数据具有较好的效果。该方法通过组合多个弱监督模型以得到一个更好更全面的强监督模型,在特征提取和分类方面较个体学习器具有更高的准确性。

今天为大家介绍相关领域的两篇文章:第一篇为基于遗传进化随机神经网络集群的晚期轻度认知障碍影像遗传学数据分析,第二篇为基于聚类演化随机森林的阿尔茨海默症影像遗传学数据分析。两篇论文均为神经影像学、生物信息学、机器学习的交叉研究,旨在设计基因数据与神经影像数据的新融合方法,并针对不同数据设计集群算法,以期揭示脑疾病的多因子发病机制。不同之处在于,第一篇论文针对晚期轻度认知障碍(late mildcognitive impairment,LMCI)的影像遗传学数据特点,创新性地将人工神经网络、集成学习算法和遗传进化思想进行有效结合,设计出遗传进化随机神经网络集群算法,提取最优融合特征,进而揭示LMCI的致病脑区和风险基因,此论文于2020年发表在Bioinformatics期刊;第二篇论文针对阿尔茨海默症(Alzheimer's disease,AD)的影像遗传学数据特点,创新性地将聚类演化策略与集成学习进行有效结合,设计出聚类演化随机森林算法,通过分析AD的多模态数据融合特征,实现对AD患者的准确识别,并且提取出病变脑区和致病基因,此论文于2020年发表在IEEE Journal ofBiomedical and Health Informatics期刊。接下来详细介绍两篇论文:

1. Morbigenous Brain Region and GeneDetection with a Genetically Evolved Random Neural Network Cluster Approach inLate Mild Cognitive Impairment[1]

主要工作:

(1)融合特征构建

在已有的影像遗传学数据融合研究中,基于脑区和基因之间的相关性进行融合是一种可行的方法。这一相关性可以表征脑区和基因在生物学上的交互作用。相比于单模态特征,其包含更多的信息。本研究旨在考察LMCI患者的脑区与基因之间的关联性,设计新的融合方法。首先,在对两种模态数据进行预处理后,每个样本的大脑被划分为90个脑区并提取出每个脑区活动的时间序列,同时36个基因数据被保留下来。然后,将基因数据进行离散化编码,得到每个样本的基因数字序列。最后,将样本的基因与脑区两两组合,计算脑区和基因之间的Pearson相关系数作为样本的融合特征,由此每个样本得到36×90=3240个特征。

(2)遗传进化随机神经网络集群算法设计

基于遗传进化和集成学习的思想,本研究对多个人工神经网络模型进行集成和优化,提出了遗传进化随机神经网络集群算法(geneticallyevolved random neural network cluster,GERNNC)。该模型对集成学习器的动态演化,使得集成学习在某种意义上完成了从“黑盒”到“白盒”的转化,进而弥补了传统技术的不足。首先,通过随机选择样本和样本特征构建单个基分类器,重复多次以产生随机神经网络集群。为了更好地找出建立GERNNC模型最合适的人工神经网络,本研究基于五种人工神经网络分别构建随机集群,包括反向传播神经网络(back propagationneural network,BPNN),概率神经网络(probabilisticneural network,PNN),Elman神经网络(Elman neuralnetwork,ENN),竞争神经网络(competitiveneural network,CNN)和学习矢量量化神经网络(learning vectorquantization neural network,LVQNN)),并对五种集群在稳定性时的分类性能进行了评估和对比。为了提高集群的稳定性,我们对随机集群执行了遗传进化过程,该过程包括选择、交叉和变异。选择过程将基分类器的分类准确率作为适应度函数,用于评估单个基分类器的性能;交叉过程体现在通过重组部分基分类器中的特征,使大部分具有较强分类性能的基分类器保持不变,并生成较优的基分类器;变异过程可提升基分类器的多样性和性能。遗传进化过程被不断迭代执行,直至达到进化阈值。最后,基于不同的基分类器数目构建集群,重复遗传进化的过程,并采用网格搜索法来确定基分类器的最优数目,当遗传进化后的集群的分类准确率最高并且遗传进化的次数最低时,对应的基分类器的数目是最佳的,停止迭代。图1展示了GERNNC算法的设计思想,以及基于GERNNC模型的医学数据分析框架。通过融合神经影像数据和基因数据以形成特征矩阵,并利用GERNNC模型进行最优特征提取和分类,以进一步发现致病脑区和风险基因。

图1  GERNNC算法的设计思想及影像遗传学数据分析框架

实验及结果

图2中评估了五种人工神经网络的集成性能,结果显示随着遗传进化次数的增加,五种集群的分类精度变化各不相同,其中随机PNN集群的精度随着进化次数的增加均逐渐稳定且准确率最高,因此在后续的实验中将PNN作为基分类器来构建模型,即遗传进化随机概率神经网络集群(geneticallyevolved random probabilistic neural network cluster,GERPNNC)。

图2 五种基于人工神经网络模型的分类性能对比

为了确定模型中基分类器的最优数目,图3展示了基于不同基分类器数目的GERPNNC模型的训练结果。当基分类器数目为160时,遗传进化次数最少,即在保持分类准确率稳定的同时模型的性能最高,代价最小。因此,将160作为最优基分类器数目来构建模型。

图3 最优基分类器数目

本研究提出的GERPNNC算法主要用于满足最优特征提取和分类的目的。在最终生成的模型中,逐步去掉了无关特征和冗余特征,最优特征被保留下来。由于融合特征指向特定的脑区和基因,且最优特征对正常人和病人有较高的区分能力。因此,特征中脑区和基因作为单一的成分被提取出来,并且脑区和基因在特征中出现的频数被单独统计,高频的脑区和基因意味着其与疾病的关联可能更加紧密,频数越高,越能够体现出脑区的功能或基因的功能出现异常。图4展示了出现频数较高的脑区及其位置,图5展示了全部基因出现的频率。其中,致病脑区包括脑岛、海马旁回等,风险基因包括MAGI2基因、CDH13基因等。

本研究综合基因组学、神经影像学和机器学习方法对LMCI的多因子发病机制进行研究,其主要优势主要体现在:

第一:本研究利用大脑的磁共振成像与基因组信息之间的相关性和互补性,对fMRI和基因数据进行有效的融合,可以揭示疾病不同组学数据之间的潜在关联,并从多个角度探究了疾病的复杂发病因素,为脑科学的研究提供了一个新的研究思路。

第二:本研究从机器学习方法的角度出发,通过设计高效、合理的机器学习算法,既可以针对不同的高维度数据进行处理,又可以有效地对影像遗传学数据进行分析,为更多的脑疾病研究提供了一个集“数据融合、特征提取和分类、致病因素预测”于一体的医学诊断框架。

2. Multimodal Data Analysis of Alzheimer'sDisease Based on Clustering Evolutionary Random Forest[2]

主要工作:

本文在上一篇文章的基础之上,对另一种疾病(AD)展开影像遗传学数据分析。将聚类演化集群技术应用到随机森林的改良中,提出聚类演化随机森林(clusteringevolutionary random forest,CERF)算法,减少基分类器的选择和优化复杂度,实现了自适应集合学习器,易于操作。首先,通过随机挑选样本与样本属性,构建出单个分类回归决策树。计算特征所有属性值的基尼系数,并选择最小基尼系数相对应的属性值作为最优分类点。以此类推,计算出所有属性的最优分类点,构建决策树。重复上述训练过程得到多个决策树,并用验证集检验每个决策树的性能,去掉分类能力弱的决策树,将被保留下的决策树组合成初始随机森林。再次,对初始随机森林进行聚类演化,在此过程中使用不合度量来检测决策树之间的相似性,如果两个决策树之间不合度量的值最小,意味着它们的相似度最高,从而可以被聚类为一个簇。每个簇中仅保留分类性能最佳的决策树,以提高决策树之间的差异性。最后,这一演化过程被多次迭代以提高随机森林的性能,最终得到一个具有较好分类能力的最终CERF,其设计思想如图6所示。

图6  CERF的设计思想和构造过程

实验及结果

图7展示了不同初始决策树数目与最优聚类演化次数的变化曲线,在分类准确率处于稳定状态下,当初始决策树数目为340时,只需要进行7次层次聚类演化即可得到性能最优的最终随机森林。此时模型能够以最少的训练时间达到令人满意的效果,系统资源消耗较为均衡,同时也有利于模型的实际应用和推广。因此将初始决策树数目为340的随机森林进行7次层次聚类演化,得到最终CERF。图8展示了利用CERF模型提取的部分最优特征,其对样本分类能力最好,也说明这些特征在AD与正常人之间存在巨大差异。

本研究分别统计最优特征中脑区和基因的频数作为权重,权重较大的脑区和基因则为AD异常脑区与关联基因,不同的脑区和基因的权重如图9和图10所示。其中,致病脑区包括楔前叶、舌回、角回、脑岛、丘脑等,风险基因则包含DAB1基因、LRP1B基因等。

本研究展示了一种有效的机器学习算法,基于该算法可以很好地对AD患者和正常人进行分类和特征提取,其主要优势主要体现在:

第一:本研究对AD患者的大脑区域与基因进行融合分析,并寻找出疾病相关的脑区和基因,为脑疾病的分析提供新的研究角度,为后续类似研究提供启发。

第二:本研究从理论上提出了一种新的特征提取与分类模型,并且将模型应用到实际研究中。实践证明本研究的模型在脑科疾病的诊断中具有不错的效果,可以有效地为两种常见脑疾病的诊断与研究提供参考。

本文作者:刘颖超         

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多