数据科学 | 算法工程师必备的数学基础（上）

520jefferson 2020-05-25

展开全文

『运筹OR帷幄』原创

作者：华校专

华校专，曾任阿里巴巴资深算法工程师、智易科技首席算法研究员，现任腾讯高级研究员，《Python 大战机器学习》的作者。

编者按

对于想要了解模型的底层逻辑，优化算法性能的工程师，线性代数、高等数学、概率论都是必备的基础知识。作者以浅显的语言，深入浅出的总结了算法中涉及的主要数学知识，对于工作中速查和深入学习都大有裨益。

线性代数和概率论，是算法的基础知识。掌握这些知识，对于公式推导及算法理解大有裨益。

我们在计算损失函数时，一般需要加入正则化的范数项，那么范数的计算公式还记得么？

线性代数

一、基本知识

1.本书中所有的向量都是列向量的形式：

本书中所有的矩阵都表示为：

简写为：或者。

2.矩阵的F范数：设矩阵，则其F 范数为：

。

它是向量的范数的推广。

3.矩阵的迹：设矩阵，则的迹为：。

迹的性质有：

的F范数等于的迹的平方根：。
的迹等于的迹：。
交换律：假设，则有
结合律：

。

过滤算法中的欧氏距离和余弦相似度是如何计算的？

二、向量操作

1.一组向量是线性相关的：指存在一组不全为零的实数，使得：。

一组向量是线性无关的，当且仅当时，才有：。

2.一个向量空间所包含的最大线性无关向量的数目，称作该向量空间的维数。

3.三维向量的点积：

4.三维向量的叉积：

其中分别为轴的单位向量。

1. 和的叉积垂直于构成的平面，其方向符合右手规则。

叉积的模等于构成的平行四边形的面积

5.三维向量的混合积：

其物理意义为：以为三个棱边所围成的平行六面体的体积。当构成右手系时，该平行六面体的体积为正号。

6.两个向量的并矢：给定两个向量，则向量的并矢记作：

也记作或者。

熟悉下贝叶斯估计的基本假设:独立同分布。

概率论与随机过程

一、概率与分布

1.1 条件概率与独立事件

1.条件概率：已知事件发生的条件下发生的概率，记作，它等于事件的概率相对于事件的概率，即：。其中必须有。

2.条件概率分布的链式法则：对于个随机变量，有：

3.两个随机变量相互独立的数学描述：。记作：。

4.两个随机变量关于随机变量条件独立的数学描述：。记作：。

特征工程中的相关性系数与协方差计算，你还记得多少？

二、期望和方差

2.3 协方差与相关系数

1.对于二维随机变量 (X,Y) ，可以讨论描述 X 与 Y 之间相互关系的数字特征。

定义为随机变量与的协方差，记作。
定义为随机变量与的相关系数，它是协方差的归一化。

2.由定义可知：

3.协方差的性质：

为常数。

4.协方差的物理意义：

协方差的绝对值越大，说明两个随机变量都远离它们的均值。
协方差如果为正，则说明两个随机变量同时趋向于取较大的值或者同时趋向于取较小的值；如果为负，则说明一个随变量趋向于取较大的值，另一个随机变量趋向于取较小的值。
两个随机变量的独立性可以导出协方差为零。但是两个随机变量的协方差为零无法导出独立性。因为独立性也包括：没有非线性关系。有可能两个随机变量是非独立的，但是协方差为零。如：假设随机变量。定义随机变量的概率分布函数为：

定义随机变量，则随机变量是非独立的，但是有：。

5.相关系数的物理意义：考虑以随机变量的线性函数近似表示Y。以均方误差

来衡量以近似表达的好坏程度。越小表示近似程度越高。

为求得最好的近似，则对分别取偏导数，得到：

因此有以下定理：