配色: 字号:
武新乾-多元统计模型专题
2014-11-24 | 阅:  转:  |  分享 
  
多元统计模型——数模竞赛辅导专题

河南科技大学数学与统计学院武新乾

(2014-08-2)



一、前言

28年前(1986年),美国出现了大学生数学建模竞赛。随着改革开放的进程,数模竞赛逐渐传入我国。1992年,开始国内第一届大学生数学建模比赛。数模竞赛一经传入,便受到了全国高校的普遍关注,引起了大学生的广泛兴趣。特别是近年来,虽然试题难度不断增大,但是,参赛的学生规模空前膨胀,获奖的组队也日益增加,论文质量不断提高。

综观18年的竞赛试题,问题广泛,解决方案多种多样,其中基于统计分析的问题屡见不鲜。比如:1992年A题(简单记为1992A,下同)“施肥方案对作物、蔬菜的影响”,采用多元二次回归、全回归、逐步回归和二次响应面回归;1993A“非线性交调的频率设计”,采用最小二乘方法(简单记为LS);1998A“资产投资收益与风险模型”和2000A“DNA序列的分类”,都采用多元分析方法;2001A“血管管道的三维重建”和“血管切片的三维重建”,分别采用LS方法和非线性拟合;2001B“公交车调度的规划数学模型”,采用聚类分析、平滑方法和随机过程的有关知识;2003A“SARS传播的数学原理及预测与控制”和“SARS传播的研究”,均考虑了时间序列的应用;2003A“SARS传播预测的数学模型”,采用非线性拟合,建立了指数模型;2004A“MS网点的合理布局”采用了聚类分析,“基于利润最大化的实运商业网点分布微观经济模型”采用多元统计分析方法,另外,“临时超市网点的规划模型研究”考虑了经验分布的应用;2004B“电力市场的输电阻塞优化管理(指导教师:肖华勇)”和“电力市场输电阻塞管理模型”,均使用了多元线性回归;2005A“长江水质的评价和预测”、“长江水质的评价预测模型”(二元线性回归预测)、“基于回归分析的长江水质预测与控制”,均考虑了回归分析,此外,“长江水质评价和预测的研究”、“水质的评价和预测模型”,均考虑了时间序列分析方法和多元线性回归模型;2005B“DVD在线租赁系统的优化设计”应用了抽样统计和随机服务模型,“DVD在线租赁问题”和“DVD租赁优化方案(指导教师:孙浩)”考虑了二项分布和随机模拟;2005B“DVD在线租赁问题研究”和2005C“雨量预报方法的评价模型”考虑了均值的应用;2006B“艾滋病疗法评价及疗效预测模型”使用了二次曲线和多元方差分析,“艾滋病疗法评价及疗效的预测模型”使用了逐步回归方法,“艾滋病疗法的评价及疗效的预测模型”应用了假设检验和方差分析,“艾滋病疗法的评价及疗效的预测”使用了线性拟合、二次和三次曲线拟合与非线性回归,“基于数据统计分析的艾滋病疗效评价方法”采用了F-检验和二次多项式回归;2007A“中国人口区域结构向量模型”采用了倒数曲线模型拟合,“基于Leslie模型的中国人口预测及蒙特卡罗仿真(指导教师:梅长林)”应用了概率方法;2008A“数码相机定位”应用了多元线性回归分析;2008B“高等教育学费标准探讨(华南农业大学,编号1910)”应用了因子分析、主成分分析和聚类分析,“高等教育学费标准的探讨(华南农业大学,编号1920)”采用了多元回归分析、数据挖掘和模拟退火算法,“关于高等教育学费标准的评价及建议(编号cumcm0849)”和“高校学费合理性研究(编号cumcm0860)”分别考虑了回归分析和曲线拟合。2012A“葡萄酒的评价”使用了主成分分析、典型相关分析、多元线性回归模型。2013B“碎纸片的拼接复原”采用了最小二乘法和聚类分析。

由是可知,多元统计分析是常见的解决数模竞赛的主要工具之一,务必给以充分的重视和加强训练指导。

二、回归分析

1.一元线性回归

经典的一元线性回归模型为

,(1)

其中为观察值,为独立同分布(i.i.d.)随机误差序列,并且。

易知,参数和的最小二乘估计(LSE)为

,(2)

其中







于是,所得线性回归方程为

。(3)

在应用回归方程(3)进行拟合、预测和控制之前,必须进行检验问题

。(4)

常用统计量为

,(5)

其中为回归平方和,为残差平方和。当原假设成立时,

。(6)

对于给定的显著性水平,由,查表确定临界值。当时,拒绝原假设,说明与之间存在线性关系,回归方程有意义。否则,回归方程无意义,这时有几种可能性:①确实对无任何影响;②对有影响,但不是线性关系;③除以外,还有另外的因素对有影响,这时需要进一步研究。

变量与之间的线性关系的判断,除了上述方差分析法以外,还可以利用相关系数检验法。样本相关系数

,(7)

它是总体相关系数的估计量。具有一个特性,它只依赖于样本容量和总体相关系数。当原假设成立时,统计量

。(8)

这说明也可以利用检验法对原假设进行检验。

诚然,在使用统计软件进行假设检验时,往往会输出值,也可以直接利用进行检验判断,这里,为统计量的样本值。当时,拒绝原假设,认为对的线性影响是显著的,否则,认为对的线性影响是不显著的。

只有当拒绝原假设,即认为对的线性影响是显著时,才能利用线性回归方程(3)进行预测和控制。此时,

个体与集体平均的点预测为

。(9)

个体的区间预测(置信水平为)为



,(10)

或者为

,(11)

其中为预报半径,,。

集体平均的区间预测(置信水平为)为



,(12)

或者为

,(13)

其中。

在实际应用中,为了方便起见,当取值在附近并且样本容量比较大时,通常使用

,(14)

或者

(15)

来进行预测和控制。比如,要控制在中,只需通过

(16)

或者

(17)

分别求出和,从而确定变量值的控制范围。

2.多元线性回归

经典的多元线性回归模型为

,(18)

其中为观察数据,为独立同分布(i.i.d.)随机误差序列,并且。

易知,参数的最小二乘估计(LSE)为

,(19)

其中



于是,所得线性回归方程为

。(20)

方程的显著性检验

不全为。(21)

常用统计量为

,(22)

其中为回归平方和,为残差平方和。当原假设成立时,

。(23)

对于给定的显著性水平,由,查表确定临界值。当时,拒绝原假设,即在显著性水平下,变量对的线性影响显著,回归方程有意义。否则,回归方程无意义,此时有如下几种可能性:①确实对无影响;②对有影响,但是非线性关系;③除以外,还有另外的因素对有影响,这时需要进一步研究。

只有通过方程的显著性检验,才能进一步对(偏)回归系数进行显著性检验。检验问题

。(24)

检验统计量为

,(25)

或者

,(26)

其中,为的第个对角元素,而,是中心化的数据矩阵,即



在原假设成立的条件下,

。(27)

当或者时,拒绝原假设,表明变量对的作用是显著的(在回归方程中是显著的);否则,接受原假设,说明对的作用是不显著的,可以将其从回归方程中剔除。

只有当回归方程的显著性检验和回归系数的显著性检验均通过以后,才可以利用回归方程(20)进行预测和控制。

给定一组变量值,对应的和的点预报为

。(28)

的预报区间(区间估计)为

,(29)

其中为预报半径,。当取值在附近并且样本容量充分大时,通常使用近似预报区间,即当时,预报区间为

;(30)

当时,预报区间为

。(31)

的预报区间(区间估计)为

,(32)

其中。

在实际问题中,常希望通过控制个变量中的某一个(或者少数几个)来满足对输出的要求,这就是常说的控制问题。比如,如何控制自变量的取值,使得因变量满足。当时,解不等式

(33)

解此不等式(在有解的情况下),即得自变量的控制范围。

3.非线性回归

常见的非线性回归模型分为两种类型。第一类:形式上是非线性的,但是,经过变换以后可以转化为线性模型,称为第一类非线性回归。第二类:本质上是非线性的,称为第二类非线性回归。

第一类非线性回归,又称为可化为线性模型的回归或者为化曲线为直的回归。常见的有:

双曲线型;

指数函数型或者;

幂函数型;

对数函数型;

S型;

……。

第二类非线性回归模型的一般形式为

,(34)

其中为可控制变量,为未知待估参数,为一随机变量,为元非线性函数。

此处,仅介绍一种常用的估计方法——非线性最小二乘法。

设进行了次随机试验,得到观察值为,即

。(35)

通常假定为独立同分布(i.i.d.)随机误差序列,并且为白噪声过程,即。令

,(36)

使得达到最小值的称为参数的最小二乘估计。称方程

(37)

为非线性回归方程;作为的估计值,称为预测值(拟合值)。

下面介绍求解的一种迭代方法——高斯-牛顿法。具体步骤如下:

给定初始值;

计算矩阵



计算迭代值,

,(38)

其中



④以代替作为下一次迭代的初始值,重复上述步骤,直到与或者与之差的绝对值小于预先给定的精度为止。将最后所得的作为参数的最终估计值。

在求出之后,可得非线性回归方程(37),然后,可类似于线性回归方程进行预测和控制。

三、判别分析、聚类分析、主成分分析与因子分析

由于这部分内容庞杂繁多,况且教学时间有限,所以,该节讲义暂时略去这部分内容的知识梳理与讲解。虽然如此,但是,在下面的应用分析中还是选择了一个实例(例3)加以分析说明,这是因为该部分内容在历年的数学建模竞赛中时有出现和应用,不能掉以轻心。

四、应用分析

例1(1992年A题施肥效果分析)具体问题参见题目“1992年A题施肥效果分析.pdf”。

分析:该题是中国大学生首届数学模型竞赛试题,也是美国1992年数学模型竞赛A题。在上述问题中,N,P,K的施用量是三个回归变量,土豆和生菜的产量是因变量,利用所给数据建立产量与N,P,K的施用量之间的函数关系,然后通过这个函数关系去分析合理的施肥效果等,这就是回归方法建模。

先看钾肥K的施用量与生菜产量W之间的关系。由所给数据描出经验曲线,并结合农学原理知,钾肥的施用量对生菜产量的增加表现为直线形式,故可用一元线性回归。所建立的钾肥对生菜的效应方程(回归方程)为

。(39)

由于,所以,效应方程(回归方程)(39)有意义。

另外,由所给数据描出的经验曲线,并结合英国科学家博伊德的理论可知,磷肥P的施用量W的增加表现为分段直线形式,运用一元线性回归,可得磷肥对土豆的效应方程为

。(40)

磷肥对生菜的效应方程为

。(41)

考查氮肥N的施用量与土豆和生菜产量W之间的关系。由所给数据描出的经验曲线,结合Nicklas和Miller的理论可知,氮肥的施用量对土豆和生菜产量的增加可用下述描述:

。(42)

令,则上述模型(42)转化为二元线性回归模型

。(43)

经过计算,氮肥对土豆的效应方程为

。(44)

由于,所以,效应方程(回归方程)(44)有意义。类似地,可求得氮肥对生菜的效应方程为

。(45)

同时,可以检验上述回归方程(45)有意义。注意:(44)和(45)式中的表示氮肥N的施用量。

再考察钾肥K的施用量与土豆产量W之间的关系。由所给的数据绘出经验曲线,结合米采利希学说,并考虑到土壤本身的天然肥力,钾肥的施用量对土豆产量的增加可用下述模型来描述

,(46)

其中为未知参数,为零均值的随机变量。不妨采用高斯-牛顿法确定参数,这里样本容量,



采用高斯-牛顿法,求得



从而,得到钾肥对土豆的效应方程为

。(47)

注:其它解题方案可以参考“施肥方案对作物_蔬菜的影响.pdf”。



例2(2004年B题)具体问题和分析参见“电力市场的输电阻塞优化管理.pdf”和“电力市场输电阻塞管理模型2004年甲组高教杯获得者论文.pdf”。

注:选择本题主要介绍多元线性回归在解决实际问题中的应用。



例3(2008题B题)具体问题参见“高等教育学费标准探讨B2008.doc”,具体分析参见“高等教育学费标准探讨1910.pdf”。

注:选择本题主要是想介绍多元统计分析中因子分析、主成分分析、聚类分析等基本方法在实际问题中的应用。

五、参考习题

1.(2006年B题优秀论文)艾滋病疗法的评价及疗效的预测。(应用了线性拟合,二次、三次、非线性回归)

2.(杨万才等,概率论与数理统计,科学出版社,2009,209-214)黄河小浪底调水调沙模型,建立排沙量与水流量的变化关系。(主要考察多项式回归分析)

3.(2004年A题优秀论文)MS网点的合理布局。(采用了聚类分析)

4.(2001年B题优秀论文)公交车调度的规划数学模型。(采用聚类分析、平滑方法和随机过程的有关知识)

5.2012A“葡萄酒的评价”。

http://wenku.baidu.com/link?url=XM9KSQml-fd6dpN1FvHgMhJMWDDnZYCAgeWhTxU_ewKSWYZ4mWJ6vhtw1x_PPUvDf7NNkpFT23upVHZ1Frrk2Jg4fBqtHPeVEIY3OGZXpNy

6.2013B“碎纸片的拼接复原”——基于最小二乘法的碎纸片拼接复原数学模型。

http://wenku.baidu.com/link?url=H8ceZA3th19ro_UjYgg7oEN1DmQXihde1M3ACc-9ntFI5ouvihcac1TEWuvs62h1w6Vxyh3zSnZ5GYoTMSlu5zWCCEudeXU5Ywz9P3aMsYG

或者http://www.doc88.com/p-7844750741729.html

7.“前言”中介绍的一些其它题目及其优秀论文。

六、授课心得





























献花(0)
+1
(本文系奔波中成长首藏)