分享

练习R:分类自变量的线性回归

 数据小兵 2021-06-01

如果线性回归的自变量是分类的,对于SPSS用户来说是无感的,直接按数值变量拟合直线,因为SPSS线性回归菜单没有内置分类自变量做哑变量的过程。

但是R不同,用lm()函数拟合线性时,如果自变量是分类的,那么模型会自动将其做哑变量处理,显然是更符合线性回归的条件要求

案例数据

雇员数据,后台回复【雇员】获取下载。


分析任务

考察不同“职位等级”对“薪金”的影响。其中“职位等级”为三水平分类变量,1代表基层,2代表中层,3代表高层。

lm()线性拟合

fit <- lm(salary~jobcat,data = employee)

回归系数结果如下:


自动给出两个哑变量对应的回归系数,jobcat2的estimate表示与1水平相比2水平多出多少薪金,即1水平基层作为参照。

自动以低水平作为参照形成哑变量拟合线性结果,这是R默认的设置。

以高层职位等级为例通俗解读一下,与基层职位相比,如果是高层管理人员的级别,那么可以多赚36139美元。

下面给出SPSS的结果,当然两个对比一下结果完全一致。


本文完
文/图=数据小兵

更多R统计文章

R语言单一样本t检验案例实现
R语言的正态密度曲线很美
R自带pairs函数矩阵散点图
car包spm函数矩阵散点图
用R语言pie函数做饼图
ggplot2统计图形:常见的4种箱线图
ggplot2统计图形:常见的4种直方图
按列索引按列名称删除指定的列数据
R语言Levene方差齐次检验
table函数:分类数据的频数与频率统计
jiebaR包中文分词及词云制作
R语言带文字标签的散点图
如何获取R自带数据集与R包数据集说明文档?
如何修改R数据框的列名称?
二元正态分布及双变量相关分析简单案例演示
R语言相关系数、显著性检验及可视化的尝试
ggplot2统计图形:常见的4种散点图
R语言scale()函数实现数据标准化
用R语言做单因素方差分析及多重比较
用R语言自动智能化创建时间序列ARIMA模型
用R对连续数据做描述统计
R语言主成分分析
shapiro.test()与ggqqplot()做正态分布检验
Fleiss' Kappa系数处理多个观察者一致性检验
练习R:用ggpubr包ggline绘制线图
双因素方差分析如何做非参数检验替代方法?
练习R:dplyr包实现分组描述统计
练习R:单个连续数据的探索性统计可视化函数EDA
练习R:用lm.ridge()做岭回归分析,可惜无法输出R平方
练习R:lm+plot+abline+text四函数绘制线性拟合散点图





    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多