分享

数据科学 | 算法工程师必备的数学基础(上)

 520jefferson 2020-05-25






『运筹OR帷幄』原创

作者:华校专

华校专,曾任阿里巴巴资深算法工程师、智易科技首席算法研究员,现任腾讯高级研究员,《Python 大战机器学习》的作者。

编者按

对于想要了解模型的底层逻辑,优化算法性能的工程师,线性代数、高等数学、概率论都是必备的基础知识。作者以浅显的语言,深入浅出的总结了算法中涉及的主要数学知识,对于工作中速查和深入学习都大有裨益。

线性代数和概率论,是算法的基础知识。掌握这些知识,对于公式推导及算法理解大有裨益。

我们在计算损失函数时,一般需要加入正则化的范数项,那么范数的计算公式还记得么?

线性代数

一、基本知识

1.本书中所有的向量都是列向量的形式:

本书中所有的矩阵 都表示为:

简写为: 或者 。

2.矩阵的F范数:设矩阵 ,则其F 范数为:

它是向量的范数的推广。

3.矩阵的迹:设矩阵 ,则 的迹为: 。

迹的性质有:

  1. F范数等于的迹的平方根:。

  2. 的迹等于的迹: 。

  3. 交换律:假设,则有

  4. 结合律:


过滤算法中的欧氏距离和余弦相似度是如何计算的?

二、向量操作

1.一组向量  是线性相关的:指存在一组不全为零的实数 ,使得: 。

一组向量  是线性无关的,当且仅当  时,才有: 。

2.一个向量空间所包含的最大线性无关向量的数目,称作该向量空间的维数。

3.三维向量的点积:

4.三维向量的叉积:

其中  分别为 轴的单位向量。

   1.  和  的叉积垂直于  构成的平面,其方向符合右手规则。

  1. 叉积的模等于 构成的平行四边形的面积

5.三维向量的混合积:

其物理意义为:以  为三个棱边所围成的平行六面体的体积。当构成右手系时,该平行六面体的体积为正号。

6.两个向量的并矢:给定两个向量  ,则向量的并矢记作:

也记作  或者 。


熟悉下贝叶斯估计的基本假设:独立同分布。

概率论与随机过程

一、概率与分布

1.1 条件概率与独立事件

1.条件概率:已知事件发生的条件下发生的概率,记作,它等于事件的概率相对于事件的概率,即: 。其中必须有 。

2.条件概率分布的链式法则:对于个随机变量,有:

3.两个随机变量相互独立的数学描述:。记作:。

4.两个随机变量关于随机变量条件独立的数学描述:。记作: 。


特征工程中的相关性系数与协方差计算,你还记得多少?

二、期望和方差

2.3 协方差与相关系数

1.对于二维随机变量 (X,Y) ,可以讨论描述 X 与 Y 之间相互关系的数字特征。

  1. 定义为随机变量与的协方差,记作 。

  2. 定义  为随机变量与的相关系数,它是协方差的归一化。

2.由定义可知:

3.协方差的性质:

  1. 为常数。

4.协方差的物理意义:

  1. 协方差的绝对值越大,说明两个随机变量都远离它们的均值。

  2. 协方差如果为正,则说明两个随机变量同时趋向于取较大的值或者同时趋向于取较小的值;如果为负,则说明一个随变量趋向于取较大的值,另一个随机变量趋向于取较小的值。

  3. 两个随机变量的独立性可以导出协方差为零。但是两个随机变量的协方差为零无法导出独立性。因为独立性也包括:没有非线性关系。有可能两个随机变量是非独立的,但是协方差为零。如:假设随机变量 。定义随机变量的概率分布函数为:

定义随机变量 ,则随机变量  是非独立的,但是有: 。

5.相关系数的物理意义:考虑以随机变量的线性函数 近似表示Y。以均方误差

来衡量以近似表达的好坏程度。越小表示近似程度越高。

为求得最好的近似,则对  分别取偏导数,得到:

因此有以下定理:

  1. ( 是绝对值)。

  2. 的充要条件是:存在常数  使得 。

6.当 较大时,  较小,意味着随机变量  和  联系较紧密。于是  是一个表征  之间线性关系紧密程度的量。

7.当  时,称  和  不相关。

  1. 不相关是就线性关系来讲的,而相互独立是一般关系而言的。

  2. 相互独立一定不相关;不相关则未必独立。


常见的概率分布,你还记得几种?

五、常见概率分布

5.1 均匀分布

离散随机变量的均匀分布:假设  有  个取值: ,则均匀分布的概率密度函数(probability mass function:PMF)为:

连续随机变量的均匀分布:假设 X 在 上均匀分布,则其概率密度函数(probability density function:PDF)为:

5.2 伯努利分布

1.伯努利分布:参数为 。随机变量  。

  1. 概率分布函数为: 。

  2. 期望:  。方差:  。

2.categorical分布:它是二项分布的推广,也称作multinoulli分布。假设随机变量,其概率分布函数为:

其中  为参数,它满足 ,且  。

5.3 二项分布

1.假设试验只有两种结果:成功的概率为 ,失败的概率为 。则二项分布描述了:独立重复地进行次试验中,成功  次的概率。

  1. 概率质量函数:
  1. 期望: 。方差:  。

5.4 高斯分布

正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择:

建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。

在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。

以上如想阅读全文,请点击以下链接:

线性代数

(http://www./%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/1_algebra.html

概率论与随机过程(http://www./%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/2_probability.html)


文章作者:华校专

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多