56个机器学习词汇表（自用）

汉无为 2023-09-29 发布于湖北

展开全文

词汇表是关于特定主题或主题的单词及其含义的列表。在学习机器学习时，你会经历很多不容易记住的术语，但如果你有一个机器学习词汇表，它会帮助你轻松记住你不记得的术语的含义。

机器学习词汇表

下面是一个机器学习词汇表，包含所有重要的机器学习术语，按字母顺序排列：

A/B testing：A/B测试意味着比较两种技术，看看哪种更有效。
Accuracy：准确度是真预测值与总预测值的比值。
Activation Function：激活函数是决定神经元被激活选择的函数。
Agglomerative Clustering：凝聚聚类是一种聚类算法，其中对相似实例进行分组的过程通过在初始阶段创建多个组开始，其中每个组包含一个实体，然后找到两个最相似的组，合并它们，重复该过程，直到获得最相似实例的单个组。
Anomaly Detection：异常检测意味着识别不太可能和罕见的事件。
AUC：AUC代表曲线下面积。它用于测量ROC曲线下的整个面积。它显示了机器学习模型在所有分类阈值上的性能的聚合度量。
Backpropagation：反向传播意味着基于错误率微调人工神经网络的权重。它导致低错误率，这使得模型更准确。
Bag of Words：单词袋是单词的表示，其中文本被表示为一组单词，而不管语法和单词的顺序。
Batch：训练模型时迭代中使用的实例集。
Batch normalization：批次标准化是对隐藏层中的激活函数的输入和输出进行归一化的过程。
Batch size：批量中的实例数是模型的批量大小。
BERT：BERT是Bidirectional Encoder Representations From Transformers的缩写。它是由Google开发的自然语言处理任务的预训练模型。
Binary Classification：二分类是机器学习中的分类问题之一，必须在两个相互排斥的类之间进行分类。
Boosting：Boosting是一种增强弱学习者准确性的方法。
Bounding box：边界框是用于标记图像中的参考点的假想框。它用于计算机视觉应用，如物体检测。
Bucketing：Bucketing是一种用于将特征转换为多个二进制特征的数据预处理技术。
Categorical data：分类数据表示一组离散的可能值。数据集中所有可以分组的特征都是分类变量。
Centroid：由聚类算法确定的聚类中心。
Class：标签中的值之一。
Classification：分类是在两个或多个离散类之间进行分类的任务。
Class-imbalance：当标签中的类别处于不同频率时，类别不平衡是二分类问题中的一个挑战。
Clustering：聚类是基于相似特征识别相似实例并将其分配到集群的任务。
Collaborative Filtering：协同过滤是一种由多个用户协作形成的推荐系统方法。它背后的想法是向用户推荐他们的同行所欣赏的产品或服务。
Confusion Matrix：混淆矩阵是用于总结分类模型的性能的性能评估度量。
CNN：CNN代表卷积神经网络。它由一个或多个卷积层组成，通常带有一个子采样层，然后是标准神经网络中的一个或多个完全连接的层。
Data analysis：数据分析是检查和探索特定人群生成的数据以找到决策和得出结论所需的信息的过程。
Data augmentation：数据增强意味着通过将相似的数据添加到已有的数据中来增加数据量。它有助于减少机器学习模型的过拟合。
Decision tree：决策树是一种算法，其通过从树的根节点行进到叶子来预测与实例相关联的标签。
Early stopping：提前停止是用于避免过拟合的正则化方法。
Ensemble：Ensemble是多个模型所做预测的合并。
Epoch：epoch表示整个训练数据的一个周期。
False-negative rate：假阴性/假阴性+真阳性
False-positive rate：假阳性/假阳性+真阴性
Feature engineering：特征工程是确定用于训练机器学习模型的最重要特征的过程。
Fully connected layer：当隐藏层中的每个节点都连接到后续层中的每个节点时，它被称为全连接层。
Generalization：泛化是指机器学习模型对看不见的数据集做出正确预测的能力。
Hidden layer：神经网络的输入层和输出层之间的层被称为隐藏层。
Image recognition：对图像中的对象进行分类的过程被称为图像识别。
Input layer：输入层是接收训练数据作为输入的神经网络的第一层。
K-Means：K-Means是机器学习中的一种聚类算法，可以在几次迭代中非常快速有效地对未标记的数据集进行分组。
Learning rate：在模型训练期间，每次迭代更新的权重的数量被称为学习率。
Linear Regression：线性回归是一种机器学习算法，它通过使用自变量的值来预测因变量的值。
Logistic Regression：逻辑回归可以说是最简单的分类机器学习算法。它用逻辑函数扩展线性回归，使其适合分类。
LSTM： LSTM是Long Short Term Memory的缩写。它是一种神经网络架构，用于深度学习应用程序中，其中数据在内存间隙中进行处理。
Multiclass Classification：具有两个以上类别的分类被称为多类别分类。
Normalization：标准化意味着以一种方式改变值，使它们最终处于正态分布。
One-hot encoding：独热编码用于产生长度等于数据集中类别数量的向量。
Overfitting：过拟合意味着机器学习模型在训练数据上表现得非常好，但泛化效果不好。
Perceptron：感知器是一种神经网络架构，最简单形式的人工神经网络类别。
Pipeline：机器学习管道意味着收集数据、准备数据、训练模型并将模型导出到生产环境。
ROC：ROC代表接受者工作特征曲线。它是一个图表，通过绘制真阳性率和假阳性率来显示机器学习模型在分类问题上的性能。
Test set：用于测试模型性能的数据集。
Training set：用于训练模型的数据集。
Transformer：Transformer是Google开发的一种流行的神经网络架构，可以被视为一堆注意力层。
True positive rate：真阳性/真阳性+假阴性
Underfitting：欠拟合与过拟合相反。当模型太容易从数据的底层结构中学习时，就会发生这种情况。