多元统计模型——数模竞赛辅导专题
河南科技大学数学与统计学院武新乾
(2014-08-2)
一、前言
28年前(1986年),美国出现了大学生数学建模竞赛。随着改革开放的进程,数模竞赛逐渐传入我国。1992年,开始国内第一届大学生数学建模比赛。数模竞赛一经传入,便受到了全国高校的普遍关注,引起了大学生的广泛兴趣。特别是近年来,虽然试题难度不断增大,但是,参赛的学生规模空前膨胀,获奖的组队也日益增加,论文质量不断提高。
综观18年的竞赛试题,问题广泛,解决方案多种多样,其中基于统计分析的问题屡见不鲜。比如:1992年A题(简单记为1992A,下同)“施肥方案对作物、蔬菜的影响”,采用多元二次回归、全回归、逐步回归和二次响应面回归;1993A“非线性交调的频率设计”,采用最小二乘方法(简单记为LS);1998A“资产投资收益与风险模型”和2000A“DNA序列的分类”,都采用多元分析方法;2001A“血管管道的三维重建”和“血管切片的三维重建”,分别采用LS方法和非线性拟合;2001B“公交车调度的规划数学模型”,采用聚类分析、平滑方法和随机过程的有关知识;2003A“SARS传播的数学原理及预测与控制”和“SARS传播的研究”,均考虑了时间序列的应用;2003A“SARS传播预测的数学模型”,采用非线性拟合,建立了指数模型;2004A“MS网点的合理布局”采用了聚类分析,“基于利润最大化的实运商业网点分布微观经济模型”采用多元统计分析方法,另外,“临时超市网点的规划模型研究”考虑了经验分布的应用;2004B“电力市场的输电阻塞优化管理(指导教师:肖华勇)”和“电力市场输电阻塞管理模型”,均使用了多元线性回归;2005A“长江水质的评价和预测”、“长江水质的评价预测模型”(二元线性回归预测)、“基于回归分析的长江水质预测与控制”,均考虑了回归分析,此外,“长江水质评价和预测的研究”、“水质的评价和预测模型”,均考虑了时间序列分析方法和多元线性回归模型;2005B“DVD在线租赁系统的优化设计”应用了抽样统计和随机服务模型,“DVD在线租赁问题”和“DVD租赁优化方案(指导教师:孙浩)”考虑了二项分布和随机模拟;2005B“DVD在线租赁问题研究”和2005C“雨量预报方法的评价模型”考虑了均值的应用;2006B“艾滋病疗法评价及疗效预测模型”使用了二次曲线和多元方差分析,“艾滋病疗法评价及疗效的预测模型”使用了逐步回归方法,“艾滋病疗法的评价及疗效的预测模型”应用了假设检验和方差分析,“艾滋病疗法的评价及疗效的预测”使用了线性拟合、二次和三次曲线拟合与非线性回归,“基于数据统计分析的艾滋病疗效评价方法”采用了F-检验和二次多项式回归;2007A“中国人口区域结构向量模型”采用了倒数曲线模型拟合,“基于Leslie模型的中国人口预测及蒙特卡罗仿真(指导教师:梅长林)”应用了概率方法;2008A“数码相机定位”应用了多元线性回归分析;2008B“高等教育学费标准探讨(华南农业大学,编号1910)”应用了因子分析、主成分分析和聚类分析,“高等教育学费标准的探讨(华南农业大学,编号1920)”采用了多元回归分析、数据挖掘和模拟退火算法,“关于高等教育学费标准的评价及建议(编号cumcm0849)”和“高校学费合理性研究(编号cumcm0860)”分别考虑了回归分析和曲线拟合。2012A“葡萄酒的评价”使用了主成分分析、典型相关分析、多元线性回归模型。2013B“碎纸片的拼接复原”采用了最小二乘法和聚类分析。
由是可知,多元统计分析是常见的解决数模竞赛的主要工具之一,务必给以充分的重视和加强训练指导。
二、回归分析
1.一元线性回归
经典的一元线性回归模型为
,(1)
其中为观察值,为独立同分布(i.i.d.)随机误差序列,并且。
易知,参数和的最小二乘估计(LSE)为
,(2)
其中
,
,
。
于是,所得线性回归方程为
。(3)
在应用回归方程(3)进行拟合、预测和控制之前,必须进行检验问题
。(4)
常用统计量为
,(5)
其中为回归平方和,为残差平方和。当原假设成立时,
。(6)
对于给定的显著性水平,由,查表确定临界值。当时,拒绝原假设,说明与之间存在线性关系,回归方程有意义。否则,回归方程无意义,这时有几种可能性:①确实对无任何影响;②对有影响,但不是线性关系;③除以外,还有另外的因素对有影响,这时需要进一步研究。
变量与之间的线性关系的判断,除了上述方差分析法以外,还可以利用相关系数检验法。样本相关系数
,(7)
它是总体相关系数的估计量。具有一个特性,它只依赖于样本容量和总体相关系数。当原假设成立时,统计量
。(8)
这说明也可以利用检验法对原假设进行检验。
诚然,在使用统计软件进行假设检验时,往往会输出值,也可以直接利用进行检验判断,这里,为统计量的样本值。当时,拒绝原假设,认为对的线性影响是显著的,否则,认为对的线性影响是不显著的。
只有当拒绝原假设,即认为对的线性影响是显著时,才能利用线性回归方程(3)进行预测和控制。此时,
个体与集体平均的点预测为
。(9)
个体的区间预测(置信水平为)为
,(10)
或者为
,(11)
其中为预报半径,,。
集体平均的区间预测(置信水平为)为
,(12)
或者为
,(13)
其中。
在实际应用中,为了方便起见,当取值在附近并且样本容量比较大时,通常使用
,(14)
或者
(15)
来进行预测和控制。比如,要控制在中,只需通过
(16)
或者
(17)
分别求出和,从而确定变量值的控制范围。
2.多元线性回归
经典的多元线性回归模型为
,(18)
其中为观察数据,为独立同分布(i.i.d.)随机误差序列,并且。
易知,参数的最小二乘估计(LSE)为
,(19)
其中
。
于是,所得线性回归方程为
。(20)
方程的显著性检验
不全为。(21)
常用统计量为
,(22)
其中为回归平方和,为残差平方和。当原假设成立时,
。(23)
对于给定的显著性水平,由,查表确定临界值。当时,拒绝原假设,即在显著性水平下,变量对的线性影响显著,回归方程有意义。否则,回归方程无意义,此时有如下几种可能性:①确实对无影响;②对有影响,但是非线性关系;③除以外,还有另外的因素对有影响,这时需要进一步研究。
只有通过方程的显著性检验,才能进一步对(偏)回归系数进行显著性检验。检验问题
。(24)
检验统计量为
,(25)
或者
,(26)
其中,为的第个对角元素,而,是中心化的数据矩阵,即
。
在原假设成立的条件下,
。(27)
当或者时,拒绝原假设,表明变量对的作用是显著的(在回归方程中是显著的);否则,接受原假设,说明对的作用是不显著的,可以将其从回归方程中剔除。
只有当回归方程的显著性检验和回归系数的显著性检验均通过以后,才可以利用回归方程(20)进行预测和控制。
给定一组变量值,对应的和的点预报为
。(28)
的预报区间(区间估计)为
,(29)
其中为预报半径,。当取值在附近并且样本容量充分大时,通常使用近似预报区间,即当时,预报区间为
;(30)
当时,预报区间为
。(31)
的预报区间(区间估计)为
,(32)
其中。
在实际问题中,常希望通过控制个变量中的某一个(或者少数几个)来满足对输出的要求,这就是常说的控制问题。比如,如何控制自变量的取值,使得因变量满足。当时,解不等式
(33)
解此不等式(在有解的情况下),即得自变量的控制范围。
3.非线性回归
常见的非线性回归模型分为两种类型。第一类:形式上是非线性的,但是,经过变换以后可以转化为线性模型,称为第一类非线性回归。第二类:本质上是非线性的,称为第二类非线性回归。
第一类非线性回归,又称为可化为线性模型的回归或者为化曲线为直的回归。常见的有:
双曲线型;
指数函数型或者;
幂函数型;
对数函数型;
S型;
……。
第二类非线性回归模型的一般形式为
,(34)
其中为可控制变量,为未知待估参数,为一随机变量,为元非线性函数。
此处,仅介绍一种常用的估计方法——非线性最小二乘法。
设进行了次随机试验,得到观察值为,即
。(35)
通常假定为独立同分布(i.i.d.)随机误差序列,并且为白噪声过程,即。令
,(36)
使得达到最小值的称为参数的最小二乘估计。称方程
(37)
为非线性回归方程;作为的估计值,称为预测值(拟合值)。
下面介绍求解的一种迭代方法——高斯-牛顿法。具体步骤如下:
给定初始值;
计算矩阵
;
计算迭代值,
,(38)
其中
。
④以代替作为下一次迭代的初始值,重复上述步骤,直到与或者与之差的绝对值小于预先给定的精度为止。将最后所得的作为参数的最终估计值。
在求出之后,可得非线性回归方程(37),然后,可类似于线性回归方程进行预测和控制。
三、判别分析、聚类分析、主成分分析与因子分析
由于这部分内容庞杂繁多,况且教学时间有限,所以,该节讲义暂时略去这部分内容的知识梳理与讲解。虽然如此,但是,在下面的应用分析中还是选择了一个实例(例3)加以分析说明,这是因为该部分内容在历年的数学建模竞赛中时有出现和应用,不能掉以轻心。
四、应用分析
例1(1992年A题施肥效果分析)具体问题参见题目“1992年A题施肥效果分析.pdf”。
分析:该题是中国大学生首届数学模型竞赛试题,也是美国1992年数学模型竞赛A题。在上述问题中,N,P,K的施用量是三个回归变量,土豆和生菜的产量是因变量,利用所给数据建立产量与N,P,K的施用量之间的函数关系,然后通过这个函数关系去分析合理的施肥效果等,这就是回归方法建模。
先看钾肥K的施用量与生菜产量W之间的关系。由所给数据描出经验曲线,并结合农学原理知,钾肥的施用量对生菜产量的增加表现为直线形式,故可用一元线性回归。所建立的钾肥对生菜的效应方程(回归方程)为
。(39)
由于,所以,效应方程(回归方程)(39)有意义。
另外,由所给数据描出的经验曲线,并结合英国科学家博伊德的理论可知,磷肥P的施用量W的增加表现为分段直线形式,运用一元线性回归,可得磷肥对土豆的效应方程为
。(40)
磷肥对生菜的效应方程为
。(41)
考查氮肥N的施用量与土豆和生菜产量W之间的关系。由所给数据描出的经验曲线,结合Nicklas和Miller的理论可知,氮肥的施用量对土豆和生菜产量的增加可用下述描述:
。(42)
令,则上述模型(42)转化为二元线性回归模型
。(43)
经过计算,氮肥对土豆的效应方程为
。(44)
由于,所以,效应方程(回归方程)(44)有意义。类似地,可求得氮肥对生菜的效应方程为
。(45)
同时,可以检验上述回归方程(45)有意义。注意:(44)和(45)式中的表示氮肥N的施用量。
再考察钾肥K的施用量与土豆产量W之间的关系。由所给的数据绘出经验曲线,结合米采利希学说,并考虑到土壤本身的天然肥力,钾肥的施用量对土豆产量的增加可用下述模型来描述
,(46)
其中为未知参数,为零均值的随机变量。不妨采用高斯-牛顿法确定参数,这里样本容量,
。
采用高斯-牛顿法,求得
,
从而,得到钾肥对土豆的效应方程为
。(47)
注:其它解题方案可以参考“施肥方案对作物_蔬菜的影响.pdf”。
例2(2004年B题)具体问题和分析参见“电力市场的输电阻塞优化管理.pdf”和“电力市场输电阻塞管理模型2004年甲组高教杯获得者论文.pdf”。
注:选择本题主要介绍多元线性回归在解决实际问题中的应用。
例3(2008题B题)具体问题参见“高等教育学费标准探讨B2008.doc”,具体分析参见“高等教育学费标准探讨1910.pdf”。
注:选择本题主要是想介绍多元统计分析中因子分析、主成分分析、聚类分析等基本方法在实际问题中的应用。
五、参考习题
1.(2006年B题优秀论文)艾滋病疗法的评价及疗效的预测。(应用了线性拟合,二次、三次、非线性回归)
2.(杨万才等,概率论与数理统计,科学出版社,2009,209-214)黄河小浪底调水调沙模型,建立排沙量与水流量的变化关系。(主要考察多项式回归分析)
3.(2004年A题优秀论文)MS网点的合理布局。(采用了聚类分析)
4.(2001年B题优秀论文)公交车调度的规划数学模型。(采用聚类分析、平滑方法和随机过程的有关知识)
5.2012A“葡萄酒的评价”。
http://wenku.baidu.com/link?url=XM9KSQml-fd6dpN1FvHgMhJMWDDnZYCAgeWhTxU_ewKSWYZ4mWJ6vhtw1x_PPUvDf7NNkpFT23upVHZ1Frrk2Jg4fBqtHPeVEIY3OGZXpNy
6.2013B“碎纸片的拼接复原”——基于最小二乘法的碎纸片拼接复原数学模型。
http://wenku.baidu.com/link?url=H8ceZA3th19ro_UjYgg7oEN1DmQXihde1M3ACc-9ntFI5ouvihcac1TEWuvs62h1w6Vxyh3zSnZ5GYoTMSlu5zWCCEudeXU5Ywz9P3aMsYG
或者http://www.doc88.com/p-7844750741729.html
7.“前言”中介绍的一些其它题目及其优秀论文。
六、授课心得
|
|