数据科学家应该掌握的 10 种统计技术

禁忌石 2022-03-18

展开全文

数据科学家掌握的统计技术越多，结果就越好。在这篇文章中，我们介绍十种常见的技术，这些技术在数据科学家的所有技能中都不应缺少。

1. 线性回归

在统计学中，线性回归是一种对标量响应（或因变量）与一个或多个解释变量（或自变量）之间的关系进行建模的线性方法。一个解释变量的情况称为简单线性回归。对于多个解释变量，该过程称为多元线性回归。该术语不同于多元线性回归，其中预测多个相关的因变量，而不是单个标量变量。

2.分类

在机器学习和统计中，分类是根据包含已知类别成员的观察（或实例）的训练数据集来识别新观察属于一组类别（子群体）中的哪一个的问题。例如，将给定电子邮件分配给“垃圾邮件”或“非垃圾邮件”类别，并根据观察到的患者特征（性别、血压、是否存在某些症状等）为给定患者分配诊断。 . 分类是模式识别的一个例子。

3. 重采样

在统计学中，重采样是执行以下操作的多种方法中的任何一种：

通过使用可用数据的子集（jackknifing）或从一组数据点替换随机抽取（bootstrapping）来估计样本统计的精度（中位数、方差、百分位数）
在执行显着性检验（置换检验，也称为精确检验、随机化检验或重新随机化检验）时交换数据点上的标签
使用随机子集验证模型（引导、交叉验证）

4.收缩

在统计学中，收缩有两层含义：

关于一般观察，在回归分析中，拟合关系在新数据集上的表现似乎不如在用于拟合的数据集上表现好。特别是决定系数的值“缩小”。这个想法是对过度拟合的补充，并且单独地对确定系数中的标准调整进行了补充，以补偿进一步抽样的虚拟影响，例如控制新的解释性术语偶然改进模型的潜力：即调整公式本身提供“收缩”。但是与第一个定义相反，调整公式会产生人为的收缩。
描述一般类型的估计量，或某些类型估计的影响，通过将幼稚或原始估计与其他信息相结合来改进它（参见收缩估计量）。该术语与改进后的估计值与“其他信息”提供的值的距离比原始估计值更小的概念有关。从这个意义上说，收缩用于规范不适定推理问题。

5. 降维

在统计学、机器学习和信息论中，降维或降维是通过获得一组主变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。

6.非线性模型

从 20 世纪下半叶开始，计算能力的快速和持续增长对统计科学的实践产生了重大影响。早期的统计模型几乎总是来自线性模型，但是强大的计算机，加上合适的数值算法，引起了人们对非线性模型（如神经网络）以及新类型（如广义线性模型）的兴趣的增加和多层次模型。

7. 无监督学习

无监督学习是机器学习的一个分支，它从没有被标记、分类或分类的测试数据中学习。无监督学习不是响应反馈，而是识别数据中的共性，并根据每条新数据中此类共性的存在与否做出反应。替代方案包括监督学习和强化学习。

8. 支持向量机（SVM）

在机器学习中，支持向量机（SVM，也称为支持向量网络）是具有相关学习算法的监督学习模型，用于分析用于分类和回归分析的数据。给定一组训练示例，每个都标记为属于两个类别中的一个或另一个，SVM 训练算法构建一个模型，将新示例分配给一个类别或另一个，使其成为非概率二元线性分类器（尽管方法例如 Platt 缩放存在以在概率分类设置中使用 SVM）。

SVM 模型是将示例表示为空间中的点，经过映射后，不同类别的示例被尽可能宽的明显间隙划分。然后将新示例映射到同一空间中，并根据它们落在差距的哪一侧来预测属于一个类别。

9. 子集选择

n 机器学习和统计，特征选择，也称为变量选择、属性选择或变量子集选择，是选择相关特征（变量、预测变量）的子集用于模型构建的过程。使用特征选择技术有四个原因：

简化模型，使研究人员/用户更容易解释它们，
训练时间更短，
为了避免维度的诅咒，
通过减少过度拟合来增强泛化（正式地，减少方差）

使用特征选择技术的中心前提是数据包含一些冗余或不相关的特征，因此可以删除而不会导致大量信息丢失。冗余和不相关是两个不同的概念，因为一个相关特征在存在另一个与之强相关的相关特征时可能是冗余的。

10. 基于树的方法

在计算机科学中，决策树学习使用决策树（作为预测模型）从对项目的观察（在分支中表示）到关于项目目标值的结论（在叶子中表示）。它是统计、数据挖掘和机器学习中使用的预测建模方法之一。目标变量可以采用一组离散值的树模型称为分类树；在这些树结构中，叶子代表类标签，分支代表导致这些类标签的特征的结合。目标变量可以取连续值（通常是实数）的决策树称为回归树。