给初学者的机器学习算法入门

网摘文苑 2022-11-28 发布于新疆

展开全文

导言

英国数学家、计算机科学家、逻辑学家和密码分析家阿兰 · 图灵曾说,

“这（机器学习）就像一个学生从老师那里学到了很多，同时通过自己的工作又增加了很多。当这种情况发生时，我觉得人们有义务将机器视为显示智能的工具。”

举个机器学习影响的例子，曼氏集团的 AHL 维度计划是一个51亿美元的对冲基金，部分由人工智能管理。到2015年，该基金启动后，其机器学习算法贡献了该基金一半以上的利润，尽管其管理的资产少得多。

机器学习算法入门

读完这篇文章，你将能够理解一些流行的和令人难以置信的机器学习算法背后的基本逻辑，这些算法已经被交易社区使用，并且作为你创建最好的机器学习算法的基石。他们是:

Linear Regression 线性回归
Logistic regression 逻辑回归
KNN Classification K最近邻(k-Nearest Neighbor）/KNN分类算法
Support Vector Machine (SVM) 支持向量机(SVM)
Decision Trees 决策树
Random Forest 随机森林
Artificial Neural Network 人工神经网络ANN
K-means Clustering K均值聚类算法（K平均算法）
Naive Bayes theorem 朴素贝叶斯定理
Recurrent Neural Networks (RNN) 递归神经网络(RNN)

线性回归

统计学最初是用来研究输入和输出数字变量之间的关系，机器学习社区采用它来根据线性回归方程进行预测。

线性回归的数学表示是一个线性方程式，它结合了一组特定的输入数据(x) ，以预测该组输入值的输出值(y)。线性方程为每组输入值分配一个因子，称为希腊字母 Beta (β)表示的系数。

下面提到的方程代表了一个有两组输入值的线性回归模型，x1和 x2。Y 表示模型的输出，β0，β1和 β2是线性方程的系数。

y = β0 + β1x1 + β2x2

当只有一个输入变量时，线性方程表示一条直线。为了简单起见，考虑 β2等于零，这意味着变量 x2不会影响线性回归模型的输出。在这种情况下，线性回归将代表一条直线，其方程如下所示。

y = β0 + β1x1

线性回归方程模型的图表如下所示：

线性回归可以用来找出股票在一段时间内的总体价格趋势。这有助于我们理解价格的变动是正向的还是负向的。

逻辑回归

在逻辑回归中，我们的目标是产生一个离散的值，要么是1，要么是0。这有助于我们找到一个明确的答案，我们的情况。

逻辑回归在数学上可以表示为：

逻辑回归模型计算输入变量的加权和，类似于线性回归，但是它通过一个特殊的非线性函数运行结果，logistic函数或sigmoid函数产生输出 y。

sigmoid/logistic函数由下列方程表示：

y = 1 / (1+ e-x)

简单来说，逻辑回归模型可以用来预测市场的走向。

K最近邻(k-Nearest Neighbor）/KNN分类算法

K 最近邻(KNN)分类的目的是将数据点分成不同的类，以便根据相似性度量(如距离函数)对数据点进行分类。

从某种意义上说，KNN 是边学边做的，它不需要一个明确的训练阶段，而是开始对由邻居大多数投票决定的数据点进行分类。

对象被分配到 k 个最近邻中最常见的类。

让我们考虑一下将一个绿色圆圈分为类1和类2的任务。考虑基于1-最近邻居的 KNN 问题。在这种情况下，KNN 将绿色圆圈分类为类1。现在让我们把最近的邻居数增加到3，即3-最近的邻居。正如你在图中看到的，在圆圈内有两个2类对象和一个1类对象。KNN 将绿色圆圈分类为2类对象，因为它形成大多数。

支持向量机(SVM)

支持向量机最初用于数据分析。首先，将一组训练样本输入到支持向量机算法中，这些样本属于一个或另一个类别。然后，该算法构建一个模型，开始将新数据分配给它在训练阶段学到的一个类别。

在支持向量机算法中，创建了一个超平面，用于划分类别。当支持向量机算法处理一个新的数据点，并根据它出现在哪一边，它将被分类到一个类。

在与交易相关时，可以建立支持向量机算法，将股票数据分为有利的买入类、卖出类和中性类，然后根据规则对测试数据进行分类。

决策树

决策树基本上是一个类似于树的支持工具，可以用来表示因果关系。由于一个原因可能具有多种效果，我们将它们列出来(就像有分支的树一样)。

我们可以通过组织输入数据和预测变量，并根据我们将指定的一些标准来构建决策树。

构建决策树的主要步骤是：

检索金融工具的市场数据
引入预测变量(即技术指标、情绪指标、广度指标等)
设置 Target 变量或所需的输出
在训练数据和测试数据之间分割数据
生成决策树训练模型
测试和分析模型

决策树的缺点是，由于其固有的设计结构，它们容易过度拟合。

随机森林

设计了一种随机森林算法来解决决策树的一些局限性。

随机森林由决策树组成，决策树是表示决策过程或统计概率的决策图。这些多个树被映射到一个单一的树，这是所谓的分类和回归(CART)模型。

为了根据对象的属性对其进行分类，每棵树都给出了一个分类，即对该类进行“投票”。然后森林以最多的票数选择分类。对于回归，它考虑了不同树的输出的平均值。

随机森林的工作方式如下:

假设病例数为 N，从这 N 个病例中抽取一个样本作为训练集。
考虑 M 是输入变量的个数，选择一个数 m 使得 m < M。M 和 M 之间的最佳分割用于分割节点。当树生长时，m 的值保持不变。
每棵树都尽可能地长大。
通过聚合 n 棵树的预测(例如，多数选择分类，平均选择回归) ，预测新的数据。

人工神经网络ANN

在我们扮演上帝视角的过程中，人工神经网络是我们最伟大的成就之一。我们已经创建了多个相互连接的节点，如图所示，它模仿了我们大脑中的神经元。简单地说，每个神经元通过另一个神经元接收信息，对其进行工作，并将其转移到另一个神经元作为输出。

每个圆形节点代表一个人工神经元，箭头代表从一个神经元的输出到另一个神经元的输入的连接。

如果我们使用神经网络来发现不同资产类别之间的相互依赖关系，而不是试图预测买入或卖出的选择，那么神经网络可能会更有用。

k均值聚类算法（K平均算法）

在这种机器学习算法中，目标是根据数据点的相似性进行标记。因此，我们没有在算法之前定义这些聚类，而是在算法前进时找到这些聚类。

一个简单的例子是，我们会根据足球运动员的数据，使用 K平均算法，并根据他们的相似性给他们贴上标签。因此，这些集群可以基于前锋偏好得分的任意球或成功铲球，即使算法没有给予预先定义的标签开始。

对于那些认为不同资产之间可能存在表面上看不到的相似之处的交易员来说，K平均算法是有利的。

朴素贝叶斯定理

现在，如果你们还记得基本概率，你们就会知道贝叶斯定理，是以这样一种方式表述的，我们假设我们已经事先知道，任何与前一事件相关的事件。

例如，为了检查你到办公室迟到的可能性，人们想知道你在路上是否遇到交通堵塞。

然而，朴素贝叶斯分类器算法假设两个事件是相互独立的，因此，这在很大程度上简化了计算。这最初只是一个学术练习，朴素贝叶斯已经表明，它在现实世界中也能非常好的工作。

朴素贝叶斯算法可以在不需要完整数据的情况下找到不同参数之间的简单关系。

递归神经网络(RNN)

你知道 Siri，谷歌助理在他们的程序中使用 RNN 吗？神经网络本质上是一种神经网络，它在每个节点上都有一个记忆体，这使得顺序数据的处理变得容易，也就是说，一个数据单元依赖于前一个数据单元。

一种解释 RNN 优于普通神经网络的方法是，我们应该逐个字符地处理单词。如果单词是“交易”，一个正常的神经网络节点会在移动到“ d”时忘记字符“ t”，而递归神经网络会记住这个字符，因为它有自己的记忆。

结论

Preqin（一家位于伦敦的私人投资数据公司）的一项研究显示，已知有1360只定量基金在交易过程中使用计算机模型，占所有基金的9% 。如果一个人的机器学习策略在测试阶段能够赚钱，公司就会为其组织现金奖励，事实上，公司会投资自己的钱，并在实时交易阶段获得奖励。因此，为了在竞争中领先一步，每个人，无论是数十亿美元的对冲基金还是个人交易，都在努力理解并在交易策略中实施机器学习。