原文链接:https:///?p=36149分析师:Xue Yang近年来,随着计量经济学和统计学的快速发展,回归模型作为一种有效的数据分析工具,被广泛应用于金融市场的分析中(点击文末“阅读原文”获取完整代码数据)。 视频 回归模型能够通过建立变量之间的数学关系,揭示变量之间的相互作用机制,并预测未来趋势。在金融领域,回归模型被用于分析股票价格、市场波动率、风险溢价等多种金融现象,为投资者提供了重要的决策依据。 本文将通过视频讲解,展示如何用多元线性回归模型进行金融证券市场指数与成分股预测,并结合一个R语言逐步回归模型对电影票房、放映场数、观影人数预测可视化实例的代码数据,为读者提供一套完整的实践数据分析流程。 数据集与多元线性回归模型 给定数据集 {(y_i, x_1_i, ..., x_p_i) : i = 1, ..., n},若因变量(或被解释变量)y与自变量(或解释变量)x_1, ..., x_p之间存在以下线性关系: [ y_i = \beta_0 + \beta_1 x_1_i + \beta_2 x_2_i + \ldots + \beta_p x_p_i + \epsilon_i ] 我们称之为因变量y关于自变量x_1, ..., x_p的多元线性回归模型。其中,(\beta_0)为回归常数,(\beta_1, ..., \beta_p)为回归系数。 关于随机误差项(\epsilon_i) (i = 1, ..., n),我们做出以下假设:
备注:当p=1时,上述模型退化为一元线性回归模型。 多元线性回归模型的基本假设
多元线性回归模型的优点
多元线性回归模型的缺点
回归模型探讨金融证券市场指数与成分股的变量关系金融市场中,很多变量相互依存但没有严格的函数关系,因此结合指数公式编制特有的线性回归模型形式,探讨金融证券市场指数与成分股的变量关系,进一步进行指数追踪。 数据来源:(采集时间2023年2月27日):西南证券金点子财富管理终端2023年1月13日到2023年2月27日的上证50指数及其成分股的15分钟k线的收盘价。 回归诊断与多重共线性的消除方法 在进行回归分析时,我们通常需要关注几个重要的诊断指标,以确保模型的准确性和可靠性。这些指标包括异常值和强影响点、异方差、自相关以及多重共线性。 Xue Yang 拓端分析师
在处理以上问题时,需要综合考虑数据的特性、模型的假设以及研究目的等因素,选择合适的方法进行处理。 点击标题查阅往期内容 左右滑动查看更多 01 02 03 04 预测结果R语言逐步回归模型对电影票房、放映场数、观影人数预测可视化本文通过利用回归模型帮助客户对电影的票房数据(以及放映场数,观影人数)进行了研究,确定了决定电影的票房的重要因素。并讲述、论证了预测电影的票房是电影投资的至关重要的环节。通过对电影票房预测技术的发展和探讨,深度剖析了电影票房预测这个研究课题。 数据描述我们收集了中国电影发行放映协会统计的过千万票房的国产电影的相关统计指标,共涉及275部影片。 数据浏览: 因变量为: 放映场数(千场):累积量。 观影人数(万人):累积量。 票房(万元):累积量。票房均值在一亿人民币左右,其中《人在囧途之泰囧》票房达到了12.7亿,位列第一。 自变量为: ·影片部分 genre 影片类别:分类变量,共有15个类型。为了获得大量的观众群体,大多数影片都兼具许多种影片类型,因此我们仅选取了该片最主要的类型。15个类型分别是:喜剧,魔幻,动作,爱情,灾难,历史剧情,励志,主旋律,警匪,悬疑,动画,儿童,惊悚,家庭伦理。 Year 上映年份:2010-2013四年 month 上映月份:1-12 week 上映周数:1-53,从当年1月1号起记为第一周 distribute 电影分级:C/G/L/S runtime 时长:分钟。过长或过短的电影都会对票房产生影响,找到合理的时长,从而能够有效的控制电影的剪辑。 Story 作品是否改编 :该指标是电影产品的核心元素,在内容为王的当下,好的剧本往往能够吸引受众,对于国产影片,观众更看重的是好的故事,他们往往对国产影片的技术并不抱太大希望。因此,该指标主要包括两个水平,一是畅销小说改编成剧本1,另一个则是非改编剧本也就是原创剧本0。(N=改编,S=原创 reality 作品是否真人真事:1=真实,0=虚构 remake 作品是否翻拍:1=翻拍,0=非翻拍 sequel 作品是否续集:好莱坞的一大宗旨是誓将续集进行到底,真可谓天长地久有时尽,大片续集无绝期!因为第一,好拍;第二,票房好。那么,在中国市场,这招是否仍然管用? ·导演演员部分 导演姓名 导演年代 第几部作品:该片是该导演的第几部作品。冠军《人在囧途之泰囧》是导演徐峥的处女作,拿到了12亿的票房,而喜剧《财神客栈》已经是导演王晶的第110部影片。老导演or新导演,哪一种更吸引人?是久炼成钢,姜越老越辣?还是廉颇老矣,洗洗回家睡吧? 导演得奖情况:1=得奖,0=没得奖 导演是否转型:导演是一门确实能够自学成才的工种,就像久病成医,演的多了,拍的多了,自然也能成为优秀的导演。在中国电影市场中,演员转型当导演的赵薇、徐峥;作家转型的郭敬明、韩寒,我们希望看到已经在自己的领域取得成就的这些名人,随着工种的转变是否会对票房有影响。 Baidu index 主演的百度指数:影片的主演在分析中是一个字符变量,为了更好的使用这一指标,同时优化工作效率,我们决定在相同的时间段,选择所有演员百度指数的平均值作为衡量主演的标准。因为大多数电影不会仅有一个主演,所以我们选取了两个主演。百度指数越高,代表该演员知名度越高。 查看数据该数据集有以下一些变量: 从上表可以看到不同变量的缺失数据均值中值最大最小值等情况和分布情况。 从直方图来看,数据大致服从正态分布,说明数据可以进行回归模型的建立。 模型建立主要思路 为了准确的估计票房,了解电影票房的一般规律,更好为电影投资方提供参考意见,本文从电影票房和电影相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了电影票房变动的影响因素. 具体分析步骤 1.描述性统计,初步查看每个变量的均数中值等数据. 2.选择多项式回归模型 2.1变量选取 通过回归模型筛选出显著性较强的变量进行回归建模。 2.2显著性检验 根据F值和p值统计量来判断模型是否具有显著的统计意义。 2.3拟合预测 使用得到的模型对实际数据进行拟合和预测。 3.拟合不同的模型。查看模型效果。 4.分析得出结论 得出各个自变量之间的关系,以及它们对因变量的影响及其意义。 (一)转换数据,拟合多元线性模型建立多元线性——票房尝试通过最直观的解释建立模型,进行多元线性模型并进行分析。从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测票房,因此对其中的部分变量进行删减后。得到筛选后的回归模型。 显示回归结果 回归结果分析从输出结果的变量sig值可以看出,导演的情况和是否有续集以及电影的时长对电影的票房有巨大的影响。从变量的coefficient回归系数来看,导演的情况和是否有续集有正相关关系。可以看到电影的票房和上映国家也有显著的关系,在美国上映的电影票房较高,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。 残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。显示结果如下: 由于模型中部分系数是不显著,因此需要对模型进行改进,本文采用迭代回归模型建模。 使用逐步回归之后对模型进行残差检验。下图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。右边是正态pp图,其意义与左边类似;表明随机误差项是服从正态分布的,其原因是正态qq图近似地可以看成一条直线;. 拟合效果图形展示以 原始数据作为x轴,回归拟合值为轴作图,在xy面上的点用直线连接见图。 由于大部分黑色的实际数据点被红色的预测点覆盖,因此,模型具有较好的预测效果。 进行多元线性模型并进行分析——放映场数回归结果分析从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。从变量的coefficient回归系数来看,导演的情况和是否有续集有正相关关系。可以看到电影的票房和上映国家也有显著的关系,在美国上映的电影票房较高,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。 回归结果残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。显示结果如下: 由于模型中部分系数是不显著,因此需要对模型进行改进,本文采用逐步回归模型建模。 逐步回归模型建模使用逐步回归之后对模型进行残差检验。下图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。右边是正态pp图,其意义与左边类似;表明随机误差项是服从正态分布的,其原因是正态qq图近似地可以看成一条直线;. 左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。右边是正态pp图,其意义与左边类似;表明随机误差项是服从正态分布的,其原因是正态qq图近似地可以看成一条直线; 拟合效果图形展示以 原始数据作为x轴,回归拟合值为轴作图,在xy面上的点用直线连接见图。 由于大部分黑色的实际数据点被红色的预测点覆盖,因此,模型具有较好的预测效果。 进行多元线性模型并进行分析——观影人数回归结果分析从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。从变量的coefficient回归系数来看,导演的情况和是否有续集有正相关关系。可以看到电影的票房和上映国家也有显著的关系,在美国上映的电影票房较高,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。 回归结果残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。显示结果如下: 由于模型中部分系数是不显著,因此需要对模型进行改进,本文采用逐步回归模型建模。 使用逐步回归之后的模型进行残差检验。下图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。右边是正态pp图,其意义与左边类似;表明随机误差项是服从正态分布的,其原因是正态qq图近似地可以看成一条直线;. 左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。右边是正态pp图,其意义与左边类似;表明随机误差项是服从正态分布的,其原因是正态qq图近似地可以看成一条直线; 拟合效果图形展示以原始数据作为x轴,回归拟合值为轴作图,在xy面上的点用直线连接见图。 由于大部分黑色的实际数据点被红色的预测点覆盖,因此,模型具有较好的预测效果。 结论通过以上分析可以明显发现,面对良莠不齐的影片,通过集体智慧去粗取精,导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响,是一种帮助建立品位的电影体并作为生产者参考标准之一,他们直接影响电影公司对于导演、演员的选取。 分析师Xue Yang 这里要感谢Xue Yang对本文做出的贡献,她在重庆大学完成了应用统计学的硕士学位。她具备深厚的统计学理论知识,熟练掌握R语言和Python这两种在数据分析领域广泛使用的编程语言。她曾参与多个实际项目的数据分析工作,涉及金融、医疗、电商等多个领域。 |
|