武新乾-多元统计模型专题

来自：奔波中成长 > 馆藏分类

配色：

字号：大中小

武新乾-多元统计模型专题

2014-11-24 | 阅：转： | 分享

多元统计模型——数模竞赛辅导专题

河南科技大学数学与统计学院武新乾

（2014-08-2）

一、前言

28年前（1986年），美国出现了大学生数学建模竞赛。随着改革开放的进程，数模竞赛逐渐传入我国。1992年，开始国内第一届大学生数学建模比赛。数模竞赛一经传入，便受到了全国高校的普遍关注，引起了大学生的广泛兴趣。特别是近年来，虽然试题难度不断增大，但是，参赛的学生规模空前膨胀，获奖的组队也日益增加，论文质量不断提高。

综观18年的竞赛试题，问题广泛，解决方案多种多样，其中基于统计分析的问题屡见不鲜。比如：1992年A题（简单记为1992A，下同）“施肥方案对作物、蔬菜的影响”，采用多元二次回归、全回归、逐步回归和二次响应面回归；1993A“非线性交调的频率设计”，采用最小二乘方法（简单记为LS）；1998A“资产投资收益与风险模型”和2000A“DNA序列的分类”，都采用多元分析方法；2001A“血管管道的三维重建”和“血管切片的三维重建”，分别采用LS方法和非线性拟合；2001B“公交车调度的规划数学模型”，采用聚类分析、平滑方法和随机过程的有关知识；2003A“SARS传播的数学原理及预测与控制”和“SARS传播的研究”，均考虑了时间序列的应用；2003A“SARS传播预测的数学模型”，采用非线性拟合，建立了指数模型；2004A“MS网点的合理布局”采用了聚类分析，“基于利润最大化的实运商业网点分布微观经济模型”采用多元统计分析方法，另外，“临时超市网点的规划模型研究”考虑了经验分布的应用；2004B“电力市场的输电阻塞优化管理（指导教师：肖华勇）”和“电力市场输电阻塞管理模型”，均使用了多元线性回归；2005A“长江水质的评价和预测”、“长江水质的评价预测模型”（二元线性回归预测）、“基于回归分析的长江水质预测与控制”，均考虑了回归分析，此外，“长江水质评价和预测的研究”、“水质的评价和预测模型”，均考虑了时间序列分析方法和多元线性回归模型；2005B“DVD在线租赁系统的优化设计”应用了抽样统计和随机服务模型，“DVD在线租赁问题”和“DVD租赁优化方案（指导教师：孙浩）”考虑了二项分布和随机模拟；2005B“DVD在线租赁问题研究”和2005C“雨量预报方法的评价模型”考虑了均值的应用；2006B“艾滋病疗法评价及疗效预测模型”使用了二次曲线和多元方差分析，“艾滋病疗法评价及疗效的预测模型”使用了逐步回归方法，“艾滋病疗法的评价及疗效的预测模型”应用了假设检验和方差分析，“艾滋病疗法的评价及疗效的预测”使用了线性拟合、二次和三次曲线拟合与非线性回归，“基于数据统计分析的艾滋病疗效评价方法”采用了F-检验和二次多项式回归；2007A“中国人口区域结构向量模型”采用了倒数曲线模型拟合，“基于Leslie模型的中国人口预测及蒙特卡罗仿真（指导教师：梅长林）”应用了概率方法；2008A“数码相机定位”应用了多元线性回归分析；2008B“高等教育学费标准探讨（华南农业大学，编号1910）”应用了因子分析、主成分分析和聚类分析，“高等教育学费标准的探讨（华南农业大学，编号1920）”采用了多元回归分析、数据挖掘和模拟退火算法，“关于高等教育学费标准的评价及建议（编号cumcm0849）”和“高校学费合理性研究（编号cumcm0860）”分别考虑了回归分析和曲线拟合。2012A“葡萄酒的评价”使用了主成分分析、典型相关分析、多元线性回归模型。2013B“碎纸片的拼接复原”采用了最小二乘法和聚类分析。

由是可知，多元统计分析是常见的解决数模竞赛的主要工具之一，务必给以充分的重视和加强训练指导。

二、回归分析

1.一元线性回归

经典的一元线性回归模型为

，（1）

其中为观察值，为独立同分布（i.i.d.）随机误差序列，并且。

易知，参数和的最小二乘估计（LSE）为

，（2）

其中

，

，

。

于是，所得线性回归方程为

。（3）

在应用回归方程（3）进行拟合、预测和控制之前，必须进行检验问题

。（4）

常用统计量为

，（5）

其中为回归平方和，为残差平方和。当原假设成立时，

。（6）

对于给定的显著性水平，由，查表确定临界值。当时，拒绝原假设，说明与之间存在线性关系，回归方程有意义。否则，回归方程无意义，这时有几种可能性：①确实对无任何影响；②对有影响，但不是线性关系；③除以外，还有另外的因素对有影响，这时需要进一步研究。

变量与之间的线性关系的判断，除了上述方差分析法以外，还可以利用相关系数检验法。样本相关系数

，（7）

它是总体相关系数的估计量。具有一个特性，它只依赖于样本容量和总体相关系数。当原假设成立时，统计量

。（8）

这说明也可以利用检验法对原假设进行检验。

诚然，在使用统计软件进行假设检验时，往往会输出值，也可以直接利用进行检验判断，这里，为统计量的样本值。当时，拒绝原假设，认为对的线性影响是显著的，否则，认为对的线性影响是不显著的。

只有当拒绝原假设，即认为对的线性影响是显著时，才能利用线性回归方程（3）进行预测和控制。此时，

个体与集体平均的点预测为

。（9）

个体的区间预测（置信水平为）为

，（10）

或者为

，（11）

其中为预报半径，，。

集体平均的区间预测（置信水平为）为

，（12）

或者为

，（13）

其中。

在实际应用中，为了方便起见，当取值在附近并且样本容量比较大时，通常使用

，（14）

或者

（15）

来进行预测和控制。比如，要控制在中，只需通过

（16）

或者

（17）

分别求出和，从而确定变量值的控制范围。

2.多元线性回归

经典的多元线性回归模型为

，（18）

其中为观察数据，为独立同分布（i.i.d.）随机误差序列，并且。

易知，参数的最小二乘估计（LSE）为

，（19）

其中

。

于是，所得线性回归方程为

。（20）

方程的显著性检验

不全为。（21）

常用统计量为

，（22）

其中为回归平方和，为残差平方和。当原假设成立时，

。（23）

对于给定的显著性水平，由，查表确定临界值。当时，拒绝原假设，即在显著性水平下，变量对的线性影响显著，回归方程有意义。否则，回归方程无意义，此时有如下几种可能性：①确实对无影响；②对有影响，但是非线性关系；③除以外，还有另外的因素对有影响，这时需要进一步研究。

只有通过方程的显著性检验，才能进一步对（偏）回归系数进行显著性检验。检验问题

。（24）

检验统计量为

，（25）

或者

，（26）

其中，为的第个对角元素，而,是中心化的数据矩阵，即

。

在原假设成立的条件下，

。（27）

当或者时，拒绝原假设，表明变量对的作用是显著的（在回归方程中是显著的）；否则，接受原假设，说明对的作用是不显著的，可以将其从回归方程中剔除。

只有当回归方程的显著性检验和回归系数的显著性检验均通过以后，才可以利用回归方程（20）进行预测和控制。

给定一组变量值，对应的和的点预报为

。（28）

的预报区间（区间估计）为

，（29）

其中为预报半径，。当取值在附近并且样本容量充分大时，通常使用近似预报区间，即当时，预报区间为

；（30）

当时，预报区间为

。（31）

的预报区间（区间估计）为

，（32）

其中。

在实际问题中，常希望通过控制个变量中的某一个（或者少数几个）来满足对输出的要求，这就是常说的控制问题。比如，如何控制自变量的取值，使得因变量满足。当时，解不等式

（33）

解此不等式（在有解的情况下），即得自变量的控制范围。

3.非线性回归

常见的非线性回归模型分为两种类型。第一类：形式上是非线性的，但是，经过变换以后可以转化为线性模型，称为第一类非线性回归。第二类：本质上是非线性的，称为第二类非线性回归。

第一类非线性回归，又称为可化为线性模型的回归或者为化曲线为直的回归。常见的有：

双曲线型；

指数函数型或者；

幂函数型；

对数函数型；

S型；

……。

第二类非线性回归模型的一般形式为

，（34）

其中为可控制变量，为未知待估参数，为一随机变量，为元非线性函数。

此处，仅介绍一种常用的估计方法——非线性最小二乘法。

设进行了次随机试验，得到观察值为，即

。（35）

通常假定为独立同分布（i.i.d.）随机误差序列，并且为白噪声过程，即。令

，（36）

使得达到最小值的称为参数的最小二乘估计。称方程

（37）

为非线性回归方程；作为的估计值，称为预测值（拟合值）。

下面介绍求解的一种迭代方法——高斯-牛顿法。具体步骤如下：

给定初始值；

计算矩阵

；

计算迭代值，

，（38）

其中

。

④以代替作为下一次迭代的初始值，重复上述步骤，直到与或者与之差的绝对值小于预先给定的精度为止。将最后所得的作为参数的最终估计值。

在求出之后，可得非线性回归方程（37），然后，可类似于线性回归方程进行预测和控制。

三、判别分析、聚类分析、主成分分析与因子分析

由于这部分内容庞杂繁多，况且教学时间有限，所以，该节讲义暂时略去这部分内容的知识梳理与讲解。虽然如此，但是，在下面的应用分析中还是选择了一个实例（例3）加以分析说明，这是因为该部分内容在历年的数学建模竞赛中时有出现和应用，不能掉以轻心。

四、应用分析

例1（1992年A题施肥效果分析）具体问题参见题目“1992年A题施肥效果分析.pdf”。

分析：该题是中国大学生首届数学模型竞赛试题，也是美国1992年数学模型竞赛A题。在上述问题中，N,P,K的施用量是三个回归变量，土豆和生菜的产量是因变量，利用所给数据建立产量与N,P,K的施用量之间的函数关系，然后通过这个函数关系去分析合理的施肥效果等，这就是回归方法建模。

先看钾肥K的施用量与生菜产量W之间的关系。由所给数据描出经验曲线，并结合农学原理知，钾肥的施用量对生菜产量的增加表现为直线形式，故可用一元线性回归。所建立的钾肥对生菜的效应方程（回归方程）为

。（39）

由于，所以，效应方程（回归方程）（39）有意义。

另外，由所给数据描出的经验曲线，并结合英国科学家博伊德的理论可知，磷肥P的施用量W的增加表现为分段直线形式，运用一元线性回归，可得磷肥对土豆的效应方程为

。（40）

磷肥对生菜的效应方程为

。（41）

考查氮肥N的施用量与土豆和生菜产量W之间的关系。由所给数据描出的经验曲线，结合Nicklas和Miller的理论可知，氮肥的施用量对土豆和生菜产量的增加可用下述描述：

。（42）

令，则上述模型（42）转化为二元线性回归模型

。（43）

经过计算，氮肥对土豆的效应方程为

。（44）

由于，所以，效应方程（回归方程）（44）有意义。类似地，可求得氮肥对生菜的效应方程为

。（45）

同时，可以检验上述回归方程（45）有意义。注意：（44）和（45）式中的表示氮肥N的施用量。

再考察钾肥K的施用量与土豆产量W之间的关系。由所给的数据绘出经验曲线，结合米采利希学说，并考虑到土壤本身的天然肥力，钾肥的施用量对土豆产量的增加可用下述模型来描述

，（46）

其中为未知参数，为零均值的随机变量。不妨采用高斯-牛顿法确定参数，这里样本容量，

。

采用高斯-牛顿法，求得

，

从而，得到钾肥对土豆的效应方程为

。（47）

注：其它解题方案可以参考“施肥方案对作物_蔬菜的影响.pdf”。

例2（2004年B题）具体问题和分析参见“电力市场的输电阻塞优化管理.pdf”和“电力市场输电阻塞管理模型2004年甲组高教杯获得者论文.pdf”。

注：选择本题主要介绍多元线性回归在解决实际问题中的应用。

例3（2008题B题）具体问题参见“高等教育学费标准探讨B2008.doc”，具体分析参见“高等教育学费标准探讨1910.pdf”。

注：选择本题主要是想介绍多元统计分析中因子分析、主成分分析、聚类分析等基本方法在实际问题中的应用。

五、参考习题

1.（2006年B题优秀论文）艾滋病疗法的评价及疗效的预测。（应用了线性拟合，二次、三次、非线性回归）

2.（杨万才等，概率论与数理统计，科学出版社，2009，209-214）黄河小浪底调水调沙模型，建立排沙量与水流量的变化关系。（主要考察多项式回归分析）

3.（2004年A题优秀论文）MS网点的合理布局。（采用了聚类分析）

4.（2001年B题优秀论文）公交车调度的规划数学模型。（采用聚类分析、平滑方法和随机过程的有关知识）

5.2012A“葡萄酒的评价”。

http://wenku.baidu.com/link?url=XM9KSQml-fd6dpN1FvHgMhJMWDDnZYCAgeWhTxU_ewKSWYZ4mWJ6vhtw1x_PPUvDf7NNkpFT23upVHZ1Frrk2Jg4fBqtHPeVEIY3OGZXpNy

6.2013B“碎纸片的拼接复原”——基于最小二乘法的碎纸片拼接复原数学模型。

http://wenku.baidu.com/link?url=H8ceZA3th19ro_UjYgg7oEN1DmQXihde1M3ACc-9ntFI5ouvihcac1TEWuvs62h1w6Vxyh3zSnZ5GYoTMSlu5zWCCEudeXU5Ywz9P3aMsYG

或者http://www.doc88.com/p-7844750741729.html

7.“前言”中介绍的一些其它题目及其优秀论文。

六、授课心得

献花(0)

(本文系奔波中成长首藏)

类似文章 更多

发表评论：