logistic回归与线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized 与线性回归不同,逻辑回归主要用于解决分类问题,那么线性回归能不能做同样的事情呢?下面举一个例子。比如恶性肿瘤和良性肿瘤的判定。假设我们通过拟合数据得到线性回归方程和一个阈值,用阈值判定是良性还是恶性: 如图,size小于某值就是良性,否则恶性。但是“噪声”对线性方程的影响特别大,会大大降低分类准确性。例如再加三个样本就可以使方程变成这样: 那么,逻辑斯特回归是怎么做的呢?如果不能找到一个绝对的数值判定肿瘤的性质,就用概率的方法,预测出一个概率,比如>0.5判定为恶性的。 2.2 Sigmoid函数 逻辑回归首先把样本映射到[0,1]之间的数值,这就归功于sigmoid函数,可以把任何连续的值映射到[0,1]之间,数越大越趋向于0,越小越趋近于1。 函数的图像如下图,x=0的时候y对应中心点。 判定边界:对多元线性回归方程求Sigmoid函数hθ(x)=g(θ0+θ1x1+...+θnxn)hθ(x)=g(θ0+θ1x1+...+θnxn),找到一组θθ,假设得到−3+x1+x2=0−3+x1+x2=0的直线,把样本分成两类。把(1,1)代入g函数,概率值<0.5,就判定为负样本。这条直线就是判定边界,如下图:>0.5,就判定为负样本。这条直线就是判定边界,如下图:> 拟合:拟合模型/函数 由测量的数据,估计一个假定的模型/函数。如何拟合,拟合的模型是否合适?可分为以下三类 1合适拟合 2欠拟合 3 过拟合 看过一篇文章(附录)的图示,理解起来很不错: 欠拟合: 合适的拟合 过拟合 过拟合的问题如何解决? 模型太复杂,参数过多,特征数目过多。 参考文章: |
|