【A.K.应用平台】- 影像组学之机器学习方法概述

渐近故乡时 2018-04-29

展开全文

作者：GE药业（上海）核心影像高级应用

GE医疗生命科学核心影像精准医学研究院IPM（Institute of Precision Medicine）推出全新的医学影像组学(Radiomics)和人工智能（Artificial Intelligence，AI）整体解决方案的应用平台(Artificial Intelligent Kit，A.K.)，在医学影像图像分析、图像理解和专家系统研究中已经发挥重要作用。我们在上一期文章【A.K.应用平台】 - 影像组学之特征选择方法介绍中，主要介绍了【A.K.应用平台】- 影像组学之特征选择方法。这一期将介绍影像组学流程之机器学习（Machine Learning）方法。

一．机器学习概述

近几年，机器学习(Machine Learning)是人工智能研究领域中最活跃的分支之一，已成为信息科学领域解决实际问题的重要方法，它的应用已遍及人工智能的各个应用领域。机器学习是一个多学科的交叉领域，涉及数学、自动化、计算机科学、应用心理学、生物学和神经生理学等[3]。它专门研究计算机怎样模拟或实现人类的学习行为，使它能根据已有的输入数据进行学习，从而来获取新的知识或技能，使之不断改善自身的性能。

机器学习算法大致归纳为两类：有监督学习（Supervised Learning）和无监督学习（Unsupervised Learning）。有监督学习是指利用一组已知类别的样本（即训练集，Training Data）调整分类器的参数，使其达到所要求性能的过程。有监督学习中，每个实例都是由一个输入对象（既若干特征组成的一个集合）和一个实际的输出值（即标签，Label）组成。无监督学习是从无标记的数据中推断结论，如聚类分析（Cluster Analysis），它可以在探索性数据分析阶段用于发现隐藏的模式或者对数据进行分组[3]。常见的有监督学习算法有：k-近邻（k-Nearest Neighbor，KNN），决策树（Decision Tree），朴素贝叶斯（Naïve Bayes），逻辑回归（Logistics Regression），支持向量机（Support Vector Machine，SVM），Ada-Boosting、线性回归（Linear Regression）等等。常见的无监督学习算法有：聚类分析（Cluster Analysis），k-均值（k-Means）,主成分分析（Principal Component Analysis，PCA）等等。另外，有监督学习中按照作用范围来划分，包括回归（Regression）和分类（classification），其中回归作用于目标变量是连续值的情况，而分类作用于目标变量是离散值的情况。有监督学习方法中，其基本框架是把数据分为训练集（Training Data）和测试集（Testing Data），训练集用来训练模型，既使得特征和目标变量（即标签）之间建立某种关系；测试集用来测试模型的优劣，即输入的测试样本不包含已知的目标变量（即标签），由程序决定测试样本属于哪个类别（既标签）。

二．A.K.智能软件机器学习模块

为了加速实现影像组学（Radiomics）的建模流程，A.K.应用平台实现了十种有监督学习算法，如支持向量机（SVM），k-最近邻（KNN），逻辑回归（Logistics Regression），多层感知机算法（Multi-layer Perceptron， MLP），Boosting等等，可以智能快捷处理经特征提取（Feature Extraction）和特征选择（Feature Selection）后的数据，从而实现临床预测。A.K.应用平台中机器学习建模的一般框架如图1，下面将介绍几种常用的有监督学习方法。

1. SVM

在给定的训练样本D={(x1,y1)，(x2,y2)，......，(xm,ym)},yi ϵ{-1,1},包括正类（用符号“+”表示）和负类（用符号“-”表示），如图1所示。对于线性可分的情况，支持向量机的分类思想就是：基于训练集D，在样本空间找到这样一个划分正类和负类的超平面（二维情况，即直线，如图2中的红色线段）[1][4]。

图1. 机器学习建模一般框架

在样本空间中，该超平面可通过如下线性方程来描述：

其中w=（w1，w2，……wd，为法向量，决定了超平面的方向，b为位移项，

图2. 支持向量机与间隔

它决定了超平面和原点之间的距离，显然划分超平面由w和b确定。假定超平面为（w，b），则样本空间中任意点X到超平面(W，b)的距离可写为：

假设超平面（W，b）能将训练样本分类，即对于（xi，yi）ϵD,若yi=+1,则有=b>0；若yi=-1，则有=b<>

如图2，距离超平面最近的这几个点集使上式的等号成立，它们被称为“支持向量（Support Vector）”，两个不同类别的支持向量（图中用圆圈标记的点）到超平面的距离之和为：

上式距离也被称为“间隔”。因此，SVM目的就是找到最大间隔去划分超平面，也就是要找到能满足条件的约束参数w和b，使间隔r最大[1][4]。

对于线性不可分的情况，可将样本从原始空间映射到一个更高维的特征空间使得样本在这个空间内线性可分，由于特征空间维度可能很高，甚至无穷维，计算量会很大，为了解决这个困难，可以使用核函数来解决这个问题。选择不同的核函数，可以生成不同的SVM，常用的核函数有以下4种：

2. KNN

KNN其算法主要思想就是根据距离相近的邻居类别数目，来判定测试样本所属类别，其具体计算步骤如下：

（1）计算测试样本与训练集中所有样本的距离，距离的定义可以是欧式距离、余弦距离等，常用的是欧式距离；

（2）统计上步计算的距离中最近的k个样本，作为测试样本的邻居；

（3）统计k个样本中出现频率最高的样本，其所属的类别就是该测试样本所属的类别。

算法步骤具体可看如下例子，如图3：红色和蓝色的点分别表示两类，绿色的点表示未知类别。绿色点应该属于红色的一类还是蓝色的一类？如果k=5（既仅考虑与绿色点距离最近的五个点），由于红色点所占比例为3/5，绿色点则被划分为红色一类；如果k=12（既考虑所有点集），由于蓝色点集比例为7/12，因此绿色点被划分为蓝色一类。因此，选择不同的k值，对KNN的影响十分大。

图3. KNN算法实例

3. Logistic Regression

逻辑回归是一种分类的算法，常应用于二分类，可以把Logistic回归看成一种广义的线性回归。线性回归的模型函数如下[2]：

上式中表示样本点的权值向量，X表示样本，线性回归的的损失函数定义如下：

可通过梯度下降的方法求解线性回归的最优解θ。逻辑回归与线性回归的不同在于把线性回归的模型函数

通过Sigmoid函数映射到[0,1]之间， Sigmoid函数公式如下，

上式函数曲线所下图所示：

图4. Sigmoid函数图像

从以上图像中可以看出，当hθ取值大于0时，g（hθ）大于0.5，当hθ取值小于0时，g（hθ）小于0.5。因此，假设取分类阈值为0.5，则逻辑回归实现了分类，即g（hθ）大于0.5样本为一类，g（hθ）小于0.5的样本为一类。

A.K.应用平台中也除了实现了Logistic Regression算法，还实现了对Logistic Regression的结果可视化，即Radiomics Score，如图5，该图描述了逻辑回归对样本的分类情况。测试样本被完全正确分类的情况是下图第一象限全部为蓝色，第四象限全部为红色；下图第一象限出现红色，说明相应红色的样本点被错分；第四象限出现蓝色，说明相应蓝色的样本点被错分。

图5. Radiomics Score

另外，对于Logistic Regression，A.K.应用平台能自动生成ROC曲线，如下图：

图5. ROC曲线

本文主要介绍机器学习的基本概念和方法，可以看出机器学习在医学影像分析、图像理解研究中发挥非常重要的作用，我们相信医学影像智能化、可视化和定量化分析方法将推动精准医学朝着普及方向快速发展。

参考文献

[1] 周志华.机器学习, 清华大学出版社,2015.

[2] Peter Harrington. 机器学习实战, 人民邮电出版社出版,2013

[3] Shai Shalev-Shwartz,Shai Ben-David.深入理解机器学习：从原理到算法，机械工业出版社，2016

[4] 李航.统计学习方法，清华大学出版社，2012