分享

概率统计模型介绍:蒙特卡洛、马尔科夫、逻辑回归、聚类分析

 狼郎公子哥 2022-07-06 发布于内蒙古


概率统计模型包含:蒙特卡洛模型、马尔科夫模型、逻辑回归模型、聚类分析模型,这里介绍完概率统计模型的基本理论后,会在接下来的4篇文章中单独介绍,这4个模型的应用,可以让大家更系统的学习该模型。

统计学是关于认识客观现象总体数量特征和数量关系的科学.它是通过搜集、整理、分析统计资料,认识客观数量规律的方法论科学.统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史.它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”“政治算数”“统计分析科学”3个发展阶段.概率论是数理统计方法的理论基础.因统计学的研究方法具有客观、准确和可检验的特点,从而成为实证研究、利用数量挖掘规律的重要手段.目前它广泛适用于自然、社会、经济、科学技术各个领域的数据分析和研究.统计模型是数学模型的重要组成部分,尤其对具有大量数据的对象,统计建模具有极其重要的作用.从下面的例子可以领略到统计学的精彩之处.

二战时期,为了提高飞机的防护能力,英国的科学家、设计师和工程师决定给飞机增加护甲.但为了不过多加重飞机的负载,护甲必须加在最必要的地方,那么是什么地方呢?这时统计学家上阵了,他们将每架中弹但仍返航的飞机的中弹部位描绘在图纸上,然后将这些图重叠,形成了一个密度不均的弹孔分布图.统计学家拿着这张分布图,指着那些没有弹孔的地方说,这就是要增加护甲的地方,因为这地方中弹的飞机都没能返回.

有一种说法,21世纪是数据的世纪.随着计算机和网络的高度发展,计算机可以处理的数据量也成千成万倍地不断增长,而网络技术的不断发展则为大量数据的高速传输提供了极好的平台。

随着数据库的应用和普及,海量的数据正在各行各业不断涌现,人们第一次真正体会到数据海洋的无边无际.面对如此巨量的数据资源,人们迫切需要新技术和新工具,以从海量的数据中找出我们需要的信息,帮助我们解决问题,进行科学的决策.由此,数据挖掘应运而生.作为一门新兴的学科,数据挖掘就是对观测到的数据集或庞大数据集进行分析,目的是发现未知的关系和以对数据工作者有用的方式总结数据,提炼数据.

在各种层出不穷的新方法中,统计分析作为对数据处理的有用工具,在其中占有举足轻重的地位.大量的数据挖掘工作,就其本质而言,就是对于这些海量数据的统计处理.

基于此,本章将引入一些常用的概率统计模型,这些模型都是当前处理实际问题时常用的重要工具.通过对这些模型的介绍和对处理方法的阐述,让读者可以更快地掌握这些模型背后的统计思想,了解这些模型可用于处理哪些统计问题,以及在实践中,人们是如何利用这些统计工具对数据进行深入分析和挖掘的.

由于统计方法非常多,本章只挑选了4种目前比较流行的数据处理方法来做介绍,分别是蒙特卡洛方法、马尔科夫过程、逻辑回归模型、聚类分析,其大致流程如图2.1所示.

图片

图2.1 概率统计模型结构关系示意图

概率统计模型的基本理论

1 蒙特卡洛方法的一般原理

蒙特卡洛方法的基本思想:首先构造一个概率空间,然后在该概率空间中确定一个依赖于随机变量X(任意维)的统计量g(X),其数学期望

图片

正好等于所要求的值G,其中F(x)为X的分布函数.然后产生随机变量的简单子样X1,X2,…,XN,用其相应的统计量g(X1),g(X2),…,g(XN)的算术平均值

图片

作为G的近似估计.

由以上过程可以看出,用蒙特卡洛方法解题的基本步骤如下.

(1)确定所要模拟的目标以及实现这些目标的随机量,一般情况下,目标就是这些随机变量的期望.

(2)找到原问题中随机变量的分布规律.

(3)大量抽取随机样本(在如今的计算机时代,一般是利用计算机抽取相应分布的伪随机数来作为随机样本)以模拟原问题的随机量.

(4)求出随机样本的样本均值.

其中最关键的一步是确定一个统计量,其数学期望正好等于所要求的值.

如果确定数学期望为G的统计量g(X)有困难,或为其他目的,蒙特卡洛方法有时也用G的渐近无偏估计代替一般过程中的无偏估计[插图],并用此渐近无偏估计作为G的近似估计.

蒙特卡洛方法的最低要求是,能确定这样一个与计算步数 N有关的统计估计量GN——当N→∞时,GN便依概率收敛于所要求的值G.

2 马尔科夫方法的一般原理

给定随机序列{Xn,n≥0},如果对任何一列在状态空间E中的状态i1,i2,…,ik-1,i,j,及对任何0≤t1<t2<…<tk-1<tk<tk+1,{Xn,n≥0}满足马尔科夫性质

图片

则称{Xn,n≥0}为离散时间马尔科夫过程,通常也可以称为马尔科夫链(或马氏链).如果状态空间E是有限集,则称Xn是有限马尔科夫链.

马尔科夫链{Xn,n≥0}在时刻m处于状态i的条件下,在时刻m+n处转移到状态j的条件概率称为n步转移概率,记为P(Xm+n=j|Xm=i).

由于马尔科夫链在时刻m从任意一个状态i出发,经过n步到时刻m+n,必然转移到状态空间E中的某个状态,因此很自然地得到对任何i∈E,任意整数m≥0,n≥1,有图片

如果n步转移概率P(Xm+n=j|Xm=i)与m无关,则称{Xn,n≥0}为齐次马尔科夫链.对于齐次马尔科夫链{Xn,n≥0},它与起始时刻无关,只与起始时刻与终止时刻的时间间隔n有关,于是记pij(n)=P(Xm+n=j|Xm=i)=P(Xn=j|X0=i),当n=1时,称pij(1)为(一步)转移概率,通常记pij(1)=pij.

显然,n步转移概率pij(n)满足以下条件.

(1)0≤pij(n)≤1,对一切i,j=0,1,2,…

(2)图片,对一切i=0,1,2,…将n步转移概率pij(n)写成矩阵形式,有

图片

P(n)称为齐次马尔科夫链{Xn,n≥0}的n步转移概率矩阵.对于有限齐次马尔科夫链,P(n)是一个有限阶方阵,否则P(n)是一个无限阶方阵.当n=1时,称P(1)为(一步)转移概率矩阵,通常记P=P(1),即一步转移概率矩阵

图片

由查普曼-柯尔莫哥洛夫方程,设{Xn,n≥0}是齐次马尔科夫链,则对任意的非负整数k,l,任意的i,j∈E,总有

图片

查普曼-柯尔莫哥洛夫方程的矩阵形式为P(k+l)=P(k)P(l),由此可推出P(n)=Pn.

2.1.马尔科夫链的收敛性

当n→∞时,马尔科夫链的n步转移概率pij(n)会趋向于常数吗?

这个问题是有实际意义的.例如,可以分析某个生物群体最终灭绝的概率.设Xn表示在时刻n该生物群体的数量,n≥0.如果最初生物群体的数量X0=i(i>0),那么灭绝的概率是

图片

例如,对于一步转移概率矩阵图片当a+b>0时,我们得到

图片

当0<a+b<1时,图片,则图片.如果该马尔科夫链的状态空间E={1,2},则图片

易见,这些极限与起始状态i无关.

2.2.马尔科夫链的极限分布与平稳分布给定马尔科夫链{Xn,n≥0}.如果对任意一个j∈E(其中E是状态空间),n步转移概率的极限图片

对一切i∈E存在且与i无关,则称{Xn,n≥0}具有遍历性,或称{Xn,n≥0}为遍历的齐次马尔科夫链.当图片时,称{πj,j∈E}为{Xn,n≥0}的极限分布.由于0≤pij(n)≤1,所以定义中的πj总是满足0≤πj≤1,j∈E.

给定马尔科夫链{Xn,n≥0},状态空间为E.如果存在一个概率分布{qj,j∈E},使得一步转移概率pij满足图片,j∈E,则称{qj,j∈E}为马尔科夫链{Xn,n≥0}的平稳分布.

平稳分布定义等式的矩阵形式可以写为q=qP,其中,P是一步转移概率矩阵,q为列向量(q1,q2,…)′.

2.3 马尔科夫链平稳分布与遍历性之间的关系

当马尔科夫链具有遍历性时,极限分布πj必定存在且唯一.当马尔科夫链不具有遍历性时,极限分布必定不存在,而平稳分布可能存在且不唯一.

当有限马尔科夫链具有遍历性,极限分布必定是平稳分布;当无限马尔科夫链具有遍历性,如果极限分布存在,则极限分布必定是平稳分布.

因此,如果马尔科夫链具有遍历性,可以从平稳分布来探讨它的极限分布.马尔科夫链遍历性的直观意义在于无论从哪个初始状态出发,当转移步数充分大时,到达任意一个状态的概率是一个常数.也就是说,无论初始分布是什么样的,转移步数充分大后,最终的概率分布都是一样的.

3 逻辑回归方法的一般原理

1.logit变换

当响应变量Y是二分类变量时,可以采用一种被称为logit变换的方法来转换概率的值.设Y取值为1的概率为p,p∈(0,1),logit变换将概率p所在区间(0,1)转换为实数轴(-∞,+∞),从而可作为回归的响应变量,其形式如下p/1-p是用来描述事件发生强度的统计指标,称为优势(odds),也叫好坏比.可以看到,Y=1的概率越大,即p值越大,事件发生的优势也越大.图片设有一个自变量x,用logit(p)与x建立起回归关系为logit(p)=β0+β1x+ε,这里的β0,β1为回归系数,ε为随机误差.

用回归方法求出回归系数β0,β1,代入上式,经过简单运算可得下式

图片

此即逻辑回归模型.

如果解释变量不止一个,则可以将一元逻辑回归推广到多元逻辑回归,得到如下模型

图片

即可类似求得Y=1的概率

图片

3.2.检验回归系数

对回归系数的检验即检验每个解释变量对响应变量的影响是否有统计学上的意义.若有m个回归系数β1,…,βm,假设检验为

H0:βj=0,H1:βj≠0(j=1,2,…,m).

常用的回归系数检验方法有Wald X2统计量法.

Wald X2统计量的计算公式为

图片

式中分子为解释变量的参数估计值,分母为参数估计值[插图]的标准误.在原假设成立的情况下,Wald X2~X2(1).当[插图]时,即可在检验水平0.05基础上拒绝H0,认为该解释变量对响应变量有显著影响.

3.3.模型评价

一般情况下,Wald X2检验的结果趋向于保守.当样本量较小时,可能会产生一个很大的标准误,从而导致Wald X2值变得很小,增加犯第二类错误的可能性.这种情况下采用似然比检验更为可靠.当Wald X2检验与似然比检验结果出现不一致时,一般似然比检验的结果更为可取.

模型估计完成后,要评价模型有效匹配观测数据的程度.若模型的预测值与对应的观测值有较高的一致性,则认为该回归模型拟合数据,即所谓“拟合优”,否则需重新估计模型,这就是拟合优度检验.常用的检验统计量有皮尔逊X2、Deviance、HL统计量等.

关于逻辑回归模型的实际应用,一般需要通过同期与非同期数据来验证其稳定性、精确性,从而提升效果.同期数据通过7∶3或者6∶4分为建模集与验证集,通过建模集建立逻辑回归模型,在验证集上应用逻辑回归模型进行验证.建模集与验证集在目标变量上的累积提升图(洛伦兹曲线)较为接近时,模型比较稳定.

建模集与验证集在目标变量的混淆矩阵上的ROC值大于等于0.75时,模型较为准确.

4 聚类分析方法的一般原理

1.基本术语

在进行聚类分析前,我们先给出一些定义.首先要对距离进行定义,根据定义的距离才能将样品按距离远近进行聚类.如何定义距离才能使聚类结果符合决策者的要求呢?实际应用中,根据不同的聚类对象,聚类分析一般分为Q型聚类和R型聚类两种.

· Q型聚类:对样品进行分类处理,距离由样品相似性来度量.

· R型聚类:对变量进行分类处理,距离由变量相似性来度量.

样品相似性的度量用来测度样本之间距离的远近,距离相差不大的分为一组,比如将成绩相近的学生分为一组;变量相似性的度量用来测度变量之间相关性的大小,将具有相同趋势的变量分为一组,比如将学生的数学成绩和物理成绩分为一组.

(1)样品相似性度量

样品相似性的度量包括闵可夫斯基距离、马氏距离和兰氏距离等.

· 闵可夫斯基距离:记xi为第i个样品,xj为第j个样品,xik代表第i个样品的第k个变量取值,d代表变量总数,q为可以设定的参数,则第i个样品和第j个样品的闵可夫斯基距离d(xi,xj)定义为

图片

按q值的不同又可分为绝对距离(q=1)和欧氏距离(q=2),定义如下.

绝对距离

图片

欧氏距离

图片

欧氏距离较为常用,但在解决多元数据的分析问题时,不足之处就体现出来了.一是它没有考虑到总体变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品靠近,即使它们的欧氏距离不一定最近;另外,欧氏距离受到变量量纲的影响,这对多元数据的处理是不利的.

为了克服欧氏距离的不足,“马氏距离”的概念诞生了.

· 马氏距离:设Xi与Xj是来自均值向量为μ,协方差矩阵为Σ(Σ>0)的总体G中的p维样品,则两个样品间的马氏距离图片定义为

图片

马氏距离又称为广义欧几里得距离.显然,马氏距离与上述各种距离的主要不同是它考虑了观测变量之间的关联性.如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为加权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响.将原始数据线性变换后,马氏距离保持不变.

· 兰氏距离:与闵可夫斯基距离符号说明一样,兰氏距离dij(L)定义为

图片

它仅适用于一切Xij>0的情况,这个距离也可以克服各个指标之间量纲的影响.这是一个自身标准化的量纲,由于它对奇异值不敏感,特别适合用于高度偏倚的数据.不过,它同样没有考虑指标之间的关联性.

(2)变量相似性的度量

变量相似性的度量主要包括夹角余弦和相关系数等.

· 夹角余弦:设xik代表第i个变量的第k个样品取值,p代表样品总数,则这第i个变量和第j个变量间的夹角余弦cosθij定义为

图片

· 相关系数:经常用来度量变量间的相似性.[插图]代表第i个变量xi的平均值,则第i个变量和第j个变量的相关系数rij定义为

图片

无论是夹角余弦还是相关系数,其绝对值都小于等于1.

采用不同的距离公式,会得到不同的聚类结果.在进行聚类分析时,可以根据需要选择符合实际的距离公式.在样

品相似性度量中,欧氏距离具有非常明确的空间距离概念,马氏距离有消除量纲影响的作用;如果对变量作了标准化处理,通常可以采用欧氏距离.

2.聚类分析的一般步骤

在具体运用中,不妨试探性地选择几个距离公式分别进行聚类,然后对聚类分析的结果进行比对分析,以确定最合适的距离测度方法.

(1)目标

在定义了样品或变量之间的距离后,还需要设计聚类原则将样品或变量聚成多类.如何定义类与类之间的距离?如何确定样品或变量的类别来让类与类之间的距离达到最小?

(2)聚类方法分类

根据聚类分析的不同方法,可将其归为系统聚类和K均值聚类等.系统聚类按照距离的远近,把距离接近的数据一步一步归为一类,直到数据完全归为一个类别为止.K均值聚类首先人为确定分类数,起步于一个初始的分类,然后通过不断迭代把数据在不同类别之间移动,直到最后达到预定的分类数为止.

· 系统聚类,这种方法的基本思想是,距离相近的样品先聚成类,距离较远的则后聚成类,这样的过程一直进行下去,每个样品总能找到合适的类.

假设总共有n个样品,系统聚类方法的步骤如下.

第1步 将每个样品独自聚成一类,共有n类.

第2步 根据所确定的样品“距离”公式,把距离较近的样品聚合成一类,其他的样品仍各自为一类.

第3步 将“距离”最近的类进一步聚成一类.

……

以上步骤一直进行下去,直至最后将所有的样品聚成一类.为了直观地反映以上系统聚类过程,可以把整个分类系统画成一张谱系图.所以有时系统聚类也称为谱系分析.

对于系统聚类,我们还需要定义类与类之间的距离,由类间距离定义的不同会产生不同的系统聚类法.常用的类间距离定义有最短距离法、最长距离法、中间距离法、重心法、类平均法、可变法和离差平方和法.以下简单介绍一些常用的方法.

· 最短距离法:定义两个类别中距离最短的样品距离为类间距离,距离公式为

图片

· 最长距离法:定义两个类别中距离最长的样品距离为类间距离,距离公式为

图片

· 重心法:用两类的重心(样品的均值)间的距离作为两类的距离.设Gp和Gq的重心分别为[插图]和[插图],则距离公式为

图片

· 类平均法:类平均法包括组间平均距离连接法和组内平均距离连接法.设Gp和Gq分别有np和nq个,则距离公式为

图片

组间平均距离连接法将合并两类的结果,使所有两两项对之间的平均距离最小(项对的两成员分属不同类);组内平均距离连接法是将两类合并为一类后,使得合并后的类中所有项之间的平均距离最小.

· K均值聚类,至少包括以下4个步骤.

第1步:将所有的样品分成K个初始类.

第2步:逐一计算每一样品到各个类别中心点的距离,把各个样品按照距离最近的原则归入各个类别,并计算新形成类别的中心点.

第3步:按照新的中心位置,重新计算每一样品距离新的类别中心点的距离,并重新进行归类,更新类别中心点.

第4步:重复第3步,直到达到一定的收敛标准,或者达到分析者事先指定的迭代次数为止.

K均值聚类法和系统聚类法一样,都是以距离的远近为标准进行聚类,但是二者的不同之处也是明显的.系统聚类对于不同的类数产生一系列的聚类结果,而K均值聚类只能产生指定分类数的聚类结果.不过因为事先指定了类别数,而且类别数远远小于记录个数,K均值聚类的速度往往要明显快于系统聚类法.

当数据量不大的时候,一般会利用系统聚类法,从而得到最佳聚类结果.如果要聚类的数据量很大,那么利用系统聚类法会消耗大量计算时间,一般选择K均值聚类法,可以大大减少计算时间.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多