|
第八章 判别分析 |
|
|
第八章判别分析§8.1引言设有个样本,对每个样本测得项指标(变量)的数据,已知每个样本属于个类别(或总体 )中的某一类,且它们的分布函数分别为。我们希望利用这些数据,找出一种判 别函数,使得这一函数具有某种最优性质,能把属于不同类别的样点尽可能地区分开来并对测得同样的项指标(变量)的数据的一个 新样本,能判定这个样本归属哪一类。判别分析内容很丰富,方法很多。按判别的总体数来区分,有两个总体判别分析和 多总体判别分析;按区分不同总体所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别 。§8.2距离判别法一、马氏距离的概念设是来自均值向量为协方差为 维样本,则总体内两样点之间的马氏距离定义为: 定义点的马氏距离为:注:当(单位矩阵)时,即为欧几里得距离的情形。二、距离判 别的思想及方法(一)两个总体的距离判别问题设有协方差矩阵相等的两个总体其均值分别为 ,对于一个新样品,要判断它来自哪个总体。新样品到两个总体的马氏距离 ,并按照如下的判别规则进行判断 该判别规则的等价描述是:求新样品的距离与到的距离之差,如果其值为正, ;否则。(二)多个总体的距离判别问题1、设有个总体 ,其均值和协方差矩阵分别为和,而且 ,对于一个新样本,要判断它来自哪个总体。方法同上。计算新样本 到每一个总体的距离,即:其中:则线性判别函数为:相应的判别规则为:2、如果总体 得协方差矩阵分别是,而且它们不全等。计算新样本到每一个总 体的距离,即:则判别规则为:§8.2 贝叶斯判别法距离判别法虽然简单,但是该方法也有其明显不足之处。第一,判别方法与总体各自出现的概率大小无关 ;第二,判别方法与错判之后造成的损失无关。贝叶斯判别法就是为了解决这些问题而提出的一种判别方法一、贝叶斯判别的基本思想 设有个总体,其各自的分布密度函数 互不相同,假设个总体各自出现的概率分别为。假设已知若将本来属于 总体的样本错判到总体时造成的损失为,则设有 个总体相应的维空间为即为一个划分, 故可记判别规则为从描述平均损失的角度出发,如果原来属于总体且分布密度为的样品,正 好取值落入了,我们就会错判为属于。故在规则下,将属于的样品错判为的概率为: 如果实属的样品,错判到其他总体所造成的损 失为,则这种判别规则对总体 而言,样本错判后所造成的平均损失为: ,其中由于个总体出现的先验概率分别为 ,则用规则来进行判别所造成的总平均损失为:所谓贝叶斯判别法则,就是要选择使得表示的总体平均 损失达到最小。二、贝叶斯判别的基本思想设每一个总体的分布密度为来自总体 的样品被错判为来自总体时所造成的损失记为 并且。那么,对于判别规则产生的误判概率记为如果已知 样品来自总体的先验概率为,则在规则下,误判的总平均损失为 :令,则如果空间有另一种划分 则它的总平均损失为:则,在两种划分下的总平均损失之差为:由的定义,在 对一切成立即,则说明确能使总平均损失达 到极小,它是贝叶斯判别的解。因此,贝叶斯思想得到的划分为:即,当抽取了一个未知总体的样本值,要 判断它属于哪一个总体,只要先计算出个按先验分布加权的误判平均损失,然后比较这个 误判平均损失的大小,选取其中最小的,则判定样品来自该总体。 §8.4费希尔判别法费希尔判别法的主要思想是通过将多维数据投影到某个方向上,投影的原则是将总体 与总体之间尽可能的放开,然后再选择合适的判别规则,将新的样品进行分类判别。一、费希尔判别的基本思想从 个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数其中,系数 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。有了线性判别函数后,对于一个新的样品, 将它的个指标值代入线性判别函数式中求出值,然后根据一定的判别规则,就可以判别新的样品属于哪个总体。二 、费希尔判别函数的构造(一)、针对两总体情形设有两总体,其均值分别为协方 差矩阵为。当时,可求出的均值和方差,即:在求线性判别函数时,尽量使得总 体之间差异大,也就是要求尽可能的大,即大;同时要求每一个总体内的离差平方和最 小,即最小。则建立一个目标函数:,只需要找出使得目标函数 最大即可。(二)、针对多个总体的情形设有个总体,其均值和协方差 矩阵分别为。同样可求出的均值和方差,即:令其中: 选择目标函数:达到极大。注:如果得到线性判别函数,对于一个新样品可以构造一个判别规则 ,即则判定。习8.1某超市经营十种品牌的饮料,其中有四种畅销、三种滞销、三 种平消。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。(1)根据数据建立贝叶斯判别函数 ,并根据判别函数对原样本进行回判。(2)现有一新品种的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8, 信任评分平均为5,试预测该饮料的销售情况。习8.2银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定 是否给予贷款。可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数(X3)、未变更住址的年数(X4)、 收入(X5),负债收入比例(X6)、信用卡债务(X7)、其他债务(X8)等来判断信用情况。下表是从某银行的客户资料中抽取的 部分数据。(1)根据样本资料用费希尔判别法建立判别函数,对样本进行回判。(2)某客户的如上情况资为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。4233441.72.22.78910滞销6787892.83.54.8567平消879656382.22.53.03.21234畅销信任度评分口味评分销售价格产品序号销售情况 |
|
|
|
|
|
|
|
|
|
|