来源:Python 技术「ID: pythonall」 机器学习和数据分析变得越来越重要,但在学习和实践过程中,常常因为不知道怎么用程序实现各种数学公式而感到苦恼,今天我们从数学公式的角度上了解下,用 python 实现的方式方法。
关于 NumpyNumPy 是使用 Python 进行科学计算的基础软件包。除其他外,它包括:
机器学习和数据分析,numpy 是最常用的科学计算库,可以用极简的、符合思维习惯的方式完成代码实现,为学习和实践提供了很大的便利 环境准备创建虚拟环境(可省略),安装 numpy 包: pip install numpy 测试安装: >>> import numpy 在下面实践中,默认将 numpy 引用为 np: import numpy as np 基础运算编程语言大多数运算都是针对简单数值的,复杂运算是通过相应的数据结构结合程序逻辑计算的。numpy 虽然是针对复杂数据结构(例如矩阵)构造的,但它提供了和简单数值计算一样方便的操作。 幂运算幂运算的运算符为 开方,相当于计算 1/2 次方,即
绝对值绝对值表示一个数轴上的值距原点的距离,表示为 理解向量和矩阵线性代数是机器学习和数据分析的基础数学之一,而向量和矩阵式又是线性代数的基础概念,所以理解向量和矩阵非常重要。 向量一般数据被分为标量和向量,标量比较容易理解,即数轴上的一个数值 向量直观的认识是一组数值,可以理解为一维数组,但是为啥常见定义表示:具有方向的数值,方向指的是啥?这个问题困扰了我很多年(苦笑)。实际是因为在开始学习线性代数时,直接从公式定理开始,而没有了解它的原理和来源。 向量的方向指的是,向量所在坐标系的原点指向该向量在坐标系中表示的点的方向,例如在平面直角坐标系中,向量 [1,2] 表示 x 轴为 1,y 轴为 2 的一个点,从原点,即 [0,0] 点指向这个点的方向,就是这个向量的方向,扩展的三维坐标系,再到 n 为坐标系(当然超过三位人类就比较难以理解了),向量元素的个数表示向量属于几维坐标系,但无论多少维,都可以画出原点指向向量点的方向。 因为线性代数研究的是向量及向量组(矩阵)的纯数学计算,所以丢弃了坐标系的概念,只保留了向量的样子,所以造成了向量难以理解的现象。 简单说,向量就是一个数值的数组。 矩阵理解了向量,矩阵理解起来就容易了,相当于一组向量,即坐标系中的多个点的集合,矩阵运算,就相当于多个向量的运算或变换。
初始化numpy 中,提供了多种产生向量和矩阵的方法,例如用 array 可以将 python 数组初始化为 numpy 矩阵: m = np.array([(1,2,3),(2,3,4),(3,4,5)]) 就可以创建一个 向量维度为 3,个数为 3 的矩阵 基本运算numpy 特别擅长处理向量和矩阵的运算,例如乘法,即给向量中的每个数值乘以乘数,之间写代码的话,可以遍历向量,为每个值乘以乘数。 用 numpy 就简单很多:
矩阵幂运算向量、矩阵既然可以看成一个数,幂运算就很容易理解了,例如矩阵 m 平方就可以写成 矩阵点积不同维度的矩阵可以做乘法操作,但不是一般的乘法操作,操作被称为点积,为了用 numpy 表示,需要用 dot 函数,例如矩阵 m 和 n 代码为 求和与连乘统计学公式中,求和运算很常见,例如对矩阵求和: 表示对矩阵 m 中所有元素进行求和,nunpy 通过 连乘和求和类似,将矩阵中所有元素做乘积运算: numpy 通过 实践了解了上面的各种基础运算后,做些实践 计算均值向量均值公式为: 分析公式,其中 n 为向量 x 的元素数量,numpy 的向量,通过 size 获取,后面是向量求和,用 sum 完成,最后代码如下: (1/x.size)*x.sum() 或者 x.sum()/x.size 实现 Frobenius 范数现在来个复杂点的,Frobenius 范数,公式如下: 先不用纠结 Frobenius 公式的意义,我们只看如何用 python 实现,分析公式,可以看到,首先对矩阵的每个元素做平方运算,然后求和,最后对结果进行开方,那么就从里向外写 矩阵元素求和,根据前面所述,写成 np.sqrt((m**2).sum()) 借助 numpy 实现公式,极为简洁。 样本方差我们再看一个公式: 其中表示向量 x 的均值,上面计算过,那么套用起来就是: np.sqrt(((x-(x.sum()/x.size))**2).sum()/(x.size-1)) 基本依据上面了解的写法可以理解和写出,不过括号有点多,如果不参考公式,估计看不清实现的啥,好在 numpy 将均值运算通过 mean 方法简化了,例如向量 x 的均值,可以写为: np.sqrt(((x-np.mean(x))**2).sum()/(x.size-1)) 上面公式实际上是样本标准差公式,对于标准差,numpy 提供了简便方法 std, 直接用 很容易写出来 numpy 实现,赶紧试试吧。 欧拉距离前面写模拟疫情扩散时,用到了欧拉距离,当时没有理解好 numpy 公式表达能力,所以计算时分了三步,现在如果要计算两个向量之间的欧拉距离,一行代码就能搞定,先复习下欧拉距离公式,向量 a 与 向量 b 的欧拉距离为: numpy 实现为: np.sqrt(((a-b)**2).sum()) 由于欧拉距离应用广泛,所以 numpy 在线性代数模块中实现了,所以了解 numpy 实现数学公式的方法后,可以简化为: np.linalg.norm(a-b) 总结numpy 是个博大精深的数学计算库,是 python 实现科学计算的基础,今天我们从数学公式的角度,了解了如何转换为 numpy 的代码实现,限于篇幅,虽然仅是 numpy 的冰山一角,但却可以成为理解 numpy 运算原理的思路,在数据分析或者机器学习,或者论文写作过程中,即使不了解 numpy 中简洁的运算,也可以根据数学公式写出代码实现,进而通过实践学习和了解 numpy 就更容易了 参考
|
|