分享

判别分析的数学实验

 taotao_2016 2022-07-30 发布于辽宁

图片

判别分析是在分类已经确定的条件下,根据所研究个体的观测指标来判断样品所属类型的一种统计分析方法,在现实中应用非常广泛。在生产、科研和日常生活中经常会遇到如何根据观察到的数据资料对所研究的对象进行判别归类的问题。判别分析与回归分析不同,它适用于被解释变量是非度量变量的情形。判别分析的主要目的是识别一个个体所属的类别。例如,根据应聘者提供的资料来判断是否应该招聘该人;根据经济运行规律判断某一年的经济指标是否正常;在市场预测中,根据以往调查所得的种种指标,判断下季度产品是畅销、平常或滞销;根据某本科生的学习成绩和综合评价来判断其是否具有推荐免试进入硕士研究生阶段学习的资格;根据已有的气象学资料和收集的数据来判断明天的天气是晴还是阴;在医疗诊断中,根据某人如体温、血压、白细胞等指标来判别此人当前的身体状况是生病了还是健康。股票持有者根据近期股市的行情判断本周股票的涨跌情况等。由此可见,在实际问题中需要判别的问题几乎随处可见。

判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。聚类分析是给定样品要划分的类型事先并不知道,需要通过聚类分析来确定样品的分类。判别分析和聚类分析往往联合起来使用。当给定的样品需要归类,但是总体样品的类别又不清楚时,往往先用聚类分析对原总体的样品进行分类,然后再用判别分析建立将样品归到分好的类中。

判别分析内容很丰富,方法很多。常用的判别方法有:距离判别法、费希尔判别法、贝叶斯判别法和逐步判别法,这里介绍一下判别分析法

判别分析方法介绍

一、判别分析的基本思想

我们研究问题时经常会遇到包含属性变量为被解释变量和几个度量的解释变量的问题,这时需要选择一种适合的分析方法。如果此时的变量都是定量的,就可以用多元回归分析进行描述。但如果是定性变量,使用多元回归就不是十分合适,当被解释变量是属性定性变量而解释变量是度量变量时,判别分析是非常适合的方法,在很多情况下,被解释变量包含两组,如性别分男、女;考试分通过和未通过;当然也有分成多组的情况:如产品的质量分优质品、合格品和次品几个等级;一年按季节分成春、夏、秋、冬等。当包含的变量有两组时,称为两组判别分析,当分成三组或三组以上时,称为多组判别分析。

判别分析的基本要求是:分组类型在两组以上;每组案例的规模至少在一个以上。解释变量必须是可测量的,才能够计算平均值和方差,使其能够合理地应用于统计函数。

二、距离判别法

距离判别法也叫直观判别法,其基本思想是:根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。距离判别法对各类(或总体)的分布没有特定的要求。

1. 两个总体的距离判别法

设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标。

任取一个样品,指标值为X=(x1,...,xp)′,问X应判归为哪一类?

首先计算X到G1、G2总体的距离,分别记为D(X,G1)和D(X,G2),按距离最近原则:

图片

进行归类。

按照定义距离的不同方式,可以得到不同的结果,根据数值的大小按距离最近准则进行判别归类。

用矩阵

图片

表示第i个总体的数据,每一行代表一个样品,每一列代表一个变量,用图片代表第i个总体第j个指标的均值,图片,i=1,2,μ(i)和图片表示总体G(i)的均值向量和协方差矩阵,i=1,2;j=1,2,...,p。

在判别分析中经常会用到马氏距离,此处以马氏距离为例对上述准则做讨论,此时的距离公式为

图片

判别准则为

(1)当图片时,计算D2(X,G2)及D2(X,G1)的差:

图片

图片

判别准则可写成:

图片

图片,μ(1),μ(2)已知时,令

图片

图片

图片

显然,W(X)是x1,...,xp的线性函数,称W(X)为线性判别函数,a为判别系数。

图片,μ(1),μ(2)未知时,通过样本来估计。设

图片来自Gi的样本,i=1,2。

图片

其中

图片

图片,i=1,2。

线性判别函数为

图片

当p=1时,若两个总体的分布分别为N(μ1,σ2)和N(μ2,σ2),判别函数W(X)=

图片

不妨设μ1<μ2,这时W(X)的符号取决于X>图片X<图片。当X<图片时,判X∈G1;当X>图片时,判X∈G2。可见,用距离判别所得到的准则是颇为合理的。但从图1可以清晰地看出,用这个判别法有时也会出错。如X来自G1,但却落入D2,被判为属G2,错判的概率为图中阴影的面积,记为P(2|1),类似有P(1|2),显然

图片

图片

图1 判别图示

当两总体靠得很近(即|μ1-μ2|小)时,无论用何种办法,错判概率都很大,这时作判别分析是没有意义的。因此只有两个总体的均值有显著差异时,作判别分析才有意义。

(2)当图片时,按距离最近原则,类似地有:

图片

仍然用

图片

作为判别函数,它是X的二次函数。

2. 多个总体的距离判别法

两个总体的讨论推广到多个总体。设有k个总体G1,...,Gk,均值和协方差阵分别为μ(i),图片,i=1,...,k,从每个总体Gi中抽取ni个样品,i=1,...,k,每个样品测p个指标。现任取一个样品,实测指标值为X=(x1,...,xp)′,判断X应判归为哪一类的问题。按照最小距离原则进行判别归类时,首先计算样品X到k个总体的距离D2(X,Gi),然后进行比较,设i=l。若

图片

,则X∈Gi。计算距离时也分

图片

图片图片不完全相等两种情况进行讨论,当μ(i)、图片未知时,仍然选择估计量图片,i=1,...,k,

图片代替来进行计算。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多