分享

决策树、SVM、AdaBoost方法的比较

 Z2ty6osc12zs6c 2018-05-17
2017年06月08日 10:53:17

  • 决策树

    • 模型在真实世界中也应用场景

      • 在金融方面使用决策树建模分析,用于评估用户的信用、贷款违约率等;在电子商务中,可以根据用户的以往的交易种类、时间、价格建立商品推荐体统等。

      • 引用连接:
        信贷方面的应用
        电商推荐系统

    • 这个模型的优势是什么?

      • 决策树易于实现和理解;
      • 对于决策树,数据的准备工作一般比较简单;
      • 能够同时处理多种数据类型
      • 给定一个决策树模型,可以根据产生的决策树推出相应的逻辑表达式;
      • 通过静态测试来对模型的表现进行评价;
      • 在相对较短的时间内可以对大量的数据做出非常好的结果;
      • 决策树可以很好地扩展到大型数据中,同时决策树的大小独立于数据库的大小;
      • 计算复杂度相对较低,结果的输出易于理解,对部分的数据缺失不敏感。
    • 他什么情况下表现最好?

      • 实例是由“属性-值”对表示的;
      • 目标函数具有离散的输出值;
      • 训练数据集包含部分错误(决策树对错误有适应性);
      • 训练数据缺少少量属性的实例。
    • 这个模型的缺点是什么?

      • 易于出现过拟合问题;
      • 忽略了数据集中属性之间的相关性;
      • 对于类比不一致的样本,决策树的信息增益倾向于那些数据值较多的特征
    • 什么条件下它表现很差?

      • 决策树匹配的数据过多时;
      • 分类的类别过于复杂;
      • 数据的属性之间具有非常强的关联。
    • 根据我们当前数据集的特点,为什么这个模型适合这个问题。

      • 不需要准备太多的训练数据,不需要对数据过多的处理如删除空白值等;
      • 易于编码;
      • 该问题是非线性问题,决策树能够很好地解决非线性问题;
      • 算法的执行效率高,对机器的要求较小。

  • 支撑向量机

    • 模型在真实世界中也应用场景
      • 支撑向量机用于文本和超文本的分类;
      • 用于图像分类;
      • 用于手写体识别;
      • Kecman, Vojislav; Learning and Soft Computing — Support Vector Machines, Neural Networks, Fuzzy Logic Systems, The MIT Press, Cambridge, MA, 2001.
      • Barghout, Lauren. “Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation.” Granular Computing and Decision-Making. Springer International Publishing, 2015. 285-318.
    • 这个模型的优势是什么?

      • 分类效果好;
      • 可以有效地处理高维空间的数据;
      • 可以有效地处理变量个数大于样本个数的数据;
      • 只是使用了一部分子集来进行训练模型,所以SVM模型不需要太大的内存;
      • 可以提高泛化能力;
      • 无局部极小值问题;
    • 他什么情况下表现最好?

      • 数据的维度较高;
      • 需要模型具有非常强的泛化能力;
      • 样本数据量较小时;
      • 解决非线性问题;
    • 这个模型的缺点是什么?

      • 无法处理大规模的数据集,因为该算法需要较长的训练时间;
      • 无法有效地处理包含噪声太多的数据集;
      • SVM模型没有直接给出概率的估计值,而是利用交叉验证的方式估计,这种方式耗时较长;
      • 对缺失数据非常敏感;
      • 对于非线性问题,有时很难找到一个合适的核函数。
    • 什么条件下它表现很差?

      • 数据集的数据量过大;
      • 数据集中的含有噪声;
      • 数据集中的缺失较多的数据;
      • 对算法的训练效率要求较高;
    • 根据我们当前数据集的特点,为什么这个模型适合这个问题。
      • 该项目所提供的样本数据相对较少;
      • 该问题是属于非线性问题;
      • 数据集经过“独热编码”后,维度较高;

- SVM可以指定不同的核函数,用于提高分类器的准确性。

  • 集成方法(AdaBoost)
    • 模型在真实世界中也应用场景
      • 用于二分类或多分类问题;
      • 用于特征选择;
      • 多标签问题;
      • 回归问题;
        引用
    • 这个模型的优势是什么?
      • AdaBoost是一种精度非常高的分类器;
      • 可以与各种方法构建子分类器,AdaBoost算法提供一种计算框架;
      • 弱分类器的构造方法比较简单;
      • 算法易于理解,不用做特征筛选;
      • 不易发生过拟合。
      • 易于编码;
    • 他什么情况下表现最好?
      • 用于解决二分类问题;
      • 解决大类单标签问题;
      • 处理多类单标签问题;
      • 处理回归相关的问题。
    • 这个模型的缺点是什么?
      • AdaBoost算法的迭代次数不好设定,需要使用交叉验证的方式来进行确定;
      • 数据集的不平衡分布导致分类器的分类精度下降;
      • 训练比较耗费时间;
      • 对异常值比较敏感;
    • 什么条件下它表现很差?
      • 数据集分布非常不均匀;
      • 数据集中含有较多的异常值;
      • 对算法的训练的效率要求较高;
    • 根据我们当前数据集的特点,为什么这个模型适合这个问题。
      • 该数据集可以归属为多标签分类问题;
      • 数据集中异常值较少;
      • 对算法模型的准确率要就较高;

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多