决策树、SVM、AdaBoost方法的比较

决策树
- 模型在真实世界中也应用场景
  - 在金融方面使用决策树建模分析，用于评估用户的信用、贷款违约率等；在电子商务中，可以根据用户的以往的交易种类、时间、价格建立商品推荐体统等。
  - 引用连接：
    信贷方面的应用
    电商推荐系统
- 这个模型的优势是什么？
  - 决策树易于实现和理解；
  - 对于决策树，数据的准备工作一般比较简单；
  - 能够同时处理多种数据类型
  - 给定一个决策树模型，可以根据产生的决策树推出相应的逻辑表达式；
  - 通过静态测试来对模型的表现进行评价；
  - 在相对较短的时间内可以对大量的数据做出非常好的结果；
  - 决策树可以很好地扩展到大型数据中，同时决策树的大小独立于数据库的大小；
  - 计算复杂度相对较低，结果的输出易于理解，对部分的数据缺失不敏感。
- 他什么情况下表现最好？
  - 实例是由“属性-值”对表示的；
  - 目标函数具有离散的输出值；
  - 训练数据集包含部分错误(决策树对错误有适应性)；
  - 训练数据缺少少量属性的实例。
- 这个模型的缺点是什么？
  - 易于出现过拟合问题；
  - 忽略了数据集中属性之间的相关性；
  - 对于类比不一致的样本，决策树的信息增益倾向于那些数据值较多的特征
- 什么条件下它表现很差？
  - 决策树匹配的数据过多时；
  - 分类的类别过于复杂；
  - 数据的属性之间具有非常强的关联。
- 根据我们当前数据集的特点，为什么这个模型适合这个问题。
  - 不需要准备太多的训练数据，不需要对数据过多的处理如删除空白值等；
  - 易于编码；
  - 该问题是非线性问题，决策树能够很好地解决非线性问题；
  - 算法的执行效率高，对机器的要求较小。

支撑向量机
- 模型在真实世界中也应用场景
  - 支撑向量机用于文本和超文本的分类；
  - 用于图像分类；
  - 用于手写体识别；
  - Kecman, Vojislav; Learning and Soft Computing — Support Vector Machines, Neural Networks, Fuzzy Logic Systems, The MIT Press, Cambridge, MA, 2001.
  - Barghout, Lauren. “Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation.” Granular Computing and Decision-Making. Springer International Publishing, 2015. 285-318.
- 这个模型的优势是什么？
  - 分类效果好；
  - 可以有效地处理高维空间的数据；
  - 可以有效地处理变量个数大于样本个数的数据；
  - 只是使用了一部分子集来进行训练模型，所以SVM模型不需要太大的内存；
  - 可以提高泛化能力；
  - 无局部极小值问题；
- 他什么情况下表现最好？
  - 数据的维度较高；
  - 需要模型具有非常强的泛化能力；
  - 样本数据量较小时；
  - 解决非线性问题；
- 这个模型的缺点是什么？
  - 无法处理大规模的数据集，因为该算法需要较长的训练时间；
  - 无法有效地处理包含噪声太多的数据集；
  - SVM模型没有直接给出概率的估计值，而是利用交叉验证的方式估计，这种方式耗时较长；
  - 对缺失数据非常敏感；
  - 对于非线性问题，有时很难找到一个合适的核函数。
- 什么条件下它表现很差？
  - 数据集的数据量过大；
  - 数据集中的含有噪声；
  - 数据集中的缺失较多的数据；
  - 对算法的训练效率要求较高；
- 根据我们当前数据集的特点，为什么这个模型适合这个问题。
  - 该项目所提供的样本数据相对较少；
  - 该问题是属于非线性问题；
  - 数据集经过“独热编码”后，维度较高；

- SVM可以指定不同的核函数，用于提高分类器的准确性。

集成方法（AdaBoost）
- 模型在真实世界中也应用场景
  - 用于二分类或多分类问题；
  - 用于特征选择；
  - 多标签问题；
  - 回归问题；
    引用
- 这个模型的优势是什么？
  - AdaBoost是一种精度非常高的分类器；
  - 可以与各种方法构建子分类器，AdaBoost算法提供一种计算框架；
  - 弱分类器的构造方法比较简单；
  - 算法易于理解，不用做特征筛选；
  - 不易发生过拟合。
  - 易于编码；
- 他什么情况下表现最好？
  - 用于解决二分类问题；
  - 解决大类单标签问题；
  - 处理多类单标签问题；
  - 处理回归相关的问题。
- 这个模型的缺点是什么？
  - AdaBoost算法的迭代次数不好设定，需要使用交叉验证的方式来进行确定；
  - 数据集的不平衡分布导致分类器的分类精度下降；
  - 训练比较耗费时间；
  - 对异常值比较敏感；
- 什么条件下它表现很差？
  - 数据集分布非常不均匀；
  - 数据集中含有较多的异常值；
  - 对算法的训练的效率要求较高；
- 根据我们当前数据集的特点，为什么这个模型适合这个问题。
  - 该数据集可以归属为多标签分类问题；
  - 数据集中异常值较少；
  - 对算法模型的准确率要就较高；