决策树
模型在真实世界中也应用场景
这个模型的优势是什么?
- 决策树易于实现和理解;
- 对于决策树,数据的准备工作一般比较简单;
- 能够同时处理多种数据类型
- 给定一个决策树模型,可以根据产生的决策树推出相应的逻辑表达式;
- 通过静态测试来对模型的表现进行评价;
- 在相对较短的时间内可以对大量的数据做出非常好的结果;
- 决策树可以很好地扩展到大型数据中,同时决策树的大小独立于数据库的大小;
- 计算复杂度相对较低,结果的输出易于理解,对部分的数据缺失不敏感。
他什么情况下表现最好?
- 实例是由“属性-值”对表示的;
- 目标函数具有离散的输出值;
- 训练数据集包含部分错误(决策树对错误有适应性);
- 训练数据缺少少量属性的实例。
这个模型的缺点是什么?
- 易于出现过拟合问题;
- 忽略了数据集中属性之间的相关性;
- 对于类比不一致的样本,决策树的信息增益倾向于那些数据值较多的特征
什么条件下它表现很差?
- 决策树匹配的数据过多时;
- 分类的类别过于复杂;
- 数据的属性之间具有非常强的关联。
根据我们当前数据集的特点,为什么这个模型适合这个问题。
- 不需要准备太多的训练数据,不需要对数据过多的处理如删除空白值等;
- 易于编码;
- 该问题是非线性问题,决策树能够很好地解决非线性问题;
- 算法的执行效率高,对机器的要求较小。
支撑向量机
- 模型在真实世界中也应用场景
- 支撑向量机用于文本和超文本的分类;
- 用于图像分类;
- 用于手写体识别;
- Kecman, Vojislav; Learning and Soft Computing — Support Vector Machines, Neural Networks, Fuzzy Logic Systems, The MIT Press, Cambridge, MA, 2001.
- Barghout, Lauren. “Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation.” Granular Computing and Decision-Making. Springer International Publishing, 2015. 285-318.
这个模型的优势是什么?
- 分类效果好;
- 可以有效地处理高维空间的数据;
- 可以有效地处理变量个数大于样本个数的数据;
- 只是使用了一部分子集来进行训练模型,所以SVM模型不需要太大的内存;
- 可以提高泛化能力;
- 无局部极小值问题;
他什么情况下表现最好?
- 数据的维度较高;
- 需要模型具有非常强的泛化能力;
- 样本数据量较小时;
- 解决非线性问题;
这个模型的缺点是什么?
- 无法处理大规模的数据集,因为该算法需要较长的训练时间;
- 无法有效地处理包含噪声太多的数据集;
- SVM模型没有直接给出概率的估计值,而是利用交叉验证的方式估计,这种方式耗时较长;
- 对缺失数据非常敏感;
- 对于非线性问题,有时很难找到一个合适的核函数。
什么条件下它表现很差?
- 数据集的数据量过大;
- 数据集中的含有噪声;
- 数据集中的缺失较多的数据;
- 对算法的训练效率要求较高;
- 根据我们当前数据集的特点,为什么这个模型适合这个问题。
- 该项目所提供的样本数据相对较少;
- 该问题是属于非线性问题;
- 数据集经过“独热编码”后,维度较高;
- 模型在真实世界中也应用场景
- SVM可以指定不同的核函数,用于提高分类器的准确性。
- 集成方法(AdaBoost)
- 模型在真实世界中也应用场景
- 用于二分类或多分类问题;
- 用于特征选择;
- 多标签问题;
- 回归问题;
引用
- 这个模型的优势是什么?
- AdaBoost是一种精度非常高的分类器;
- 可以与各种方法构建子分类器,AdaBoost算法提供一种计算框架;
- 弱分类器的构造方法比较简单;
- 算法易于理解,不用做特征筛选;
- 不易发生过拟合。
- 易于编码;
- 他什么情况下表现最好?
- 用于解决二分类问题;
- 解决大类单标签问题;
- 处理多类单标签问题;
- 处理回归相关的问题。
- 这个模型的缺点是什么?
- AdaBoost算法的迭代次数不好设定,需要使用交叉验证的方式来进行确定;
- 数据集的不平衡分布导致分类器的分类精度下降;
- 训练比较耗费时间;
- 对异常值比较敏感;
- 什么条件下它表现很差?
- 数据集分布非常不均匀;
- 数据集中含有较多的异常值;
- 对算法的训练的效率要求较高;
- 根据我们当前数据集的特点,为什么这个模型适合这个问题。
- 该数据集可以归属为多标签分类问题;
- 数据集中异常值较少;
- 对算法模型的准确率要就较高;
- 模型在真实世界中也应用场景