搜索

分享

QQ空间 QQ好友新浪微博微信

【原】多变量（多元）多项式曲线回归线性模型分析母亲吸烟对新生婴儿体重影响可视化

拓端数据 2022-04-06

展开全文

原文链接：http:///?p=26147

本文使用的数据集记录了 1236 名新生婴儿的体重（查看文末了解数据获取方式），以及他们母亲的其他协变量。

本研究的目的是测量吸烟对新生儿体重的影响。研究人员需要通过控制其他协变量（例如母亲的体重和身高）来隔离其影响。这可以通过使用多元回归模型来完成，例如，通过考虑权重 Y_i 可以建模为

str(babis)

数据集的描述如下：

bwt 是因变量，新生儿体重以盎司为单位。数据集使用 999 作为缺失值。
gestation 是怀孕的时间，以天为单位。999 是缺失值的代码。
parity 第一胎使用 0，否则使用 1，缺失值使用 9。
age 是母亲的年龄，整数。99 是缺失值。
height 是母亲的身高。99 是缺失值。
weight 是母亲的体重，以磅为单位。999 是一个缺失值。
smoke 是一个分类变量，表示母亲现在是否吸烟 (1) (0)。9 是缺失值。

这个问题的研究人员想要判断以下内容：

吸烟的母亲会增加早产率。
吸烟者的新生儿在每个胎龄都较小。
与母亲的孕前身高和体重、产次、既往妊娠结局史或婴儿性别（这最后两个协变量不可用）相比，吸烟似乎是出生体重的一个更重要的决定因素。

我们将专注于第二个判断：

从str()命令中注意到，所有的变量都被存储为整数。我将把缺失值转换为NAs，这是R中缺失值的正确表示。

bwt == 999\] <- NA


# 有多少观察结果是缺失的？

sapply(babies, couna)

每当您在 R 中使用函数时，请记住，默认情况下它可能有也可能没有 na-action。例如，该 mean() 函数没有，并且 NA 在将缺少值的参数传递给它时简单地返回：

sapply(babies, mean)

您可以通过检查 mean() 函数帮助来纠正它，通过一个参数 na.rm=TRUE，它删除了 NAs。

sapply(babies, mean, na.rm = TRUE)

另一方面，默认情况下summary() 会删除 NAs，并输出找到的 NAs 数量，这使其成为汇总数据时的首选。

summary(babies)

我们可以看到转换因子显示了不同的摘要，因为 summary() 操作根据变量类型而变化：

parity <- factor(parity, levels )

绘制数据是您应该采取的第一个操作。我将使用 lattice 包来绘制它，因为它的最大优势在于处理多变量数据。

require(lattice)
xyplot

为了拟合多元回归模型，我们使用命令 lm()。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：拓端数据 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

拓端数据

关注对话

TA的最新馆藏

梯度提升机器LightGBM集成学习回归、分类、参数调优可视化实例|附数据代码
生态学建模：增强回归树（BRT）预测短鳍鳗生存分布和影响因素
DeepMTS深度学习神经网络多元时间序列预测宏观经济数据可视化|附数据代码
多状态马尔可夫链、生存分析心脏同种异体移植血管病变（CAV）数据可视化|附数据代码
Python没有服务器如何部署运行Shiny应用程序
【专题】2024小红书餐饮行业方法论报告合集PDF分享（附原数据表）

喜欢该文的人也喜欢更多

热门阅读换一换