分享

[图文年终盘点]路向长江上,帆扬细雨时!

 Memo_Cleon 2022-12-31 发布于上海
2023年已经开始检票了!

多年以后如能回顾2022年,我的开头一定带着悲伤与遗憾。这一年,有人看到了星辰大海,有人见到了陌上尘埃。这一年,我在上海始于一个平凡的开端,历过几个月的疫情封控,有失去亲人悲痛,也有生活里的郁意难平,终于一场新冠感染的好转。

还好,一切都要翻篇了,就把一切的不愉快都留在2022年吧!

期待2023年的美好!

=====================

2022年统计浆糊图文盘点

[链接可点击]

如果你没有听过临床预测模型,那你一定是很久很久没读文献了。临床预测模型在这几年可是火出圈了,如果你也想了解一下,不妨读一读:临床预测模型[]:来看看这样建立的模型哪里需要改进

做临床预测模型有很多细节是需要注意的,比如预测变量应以何种形式纳入模型、离群值如何处理等。临床预测模型中预测变量的编码:预测变量纳入模型的形式一文或许能给你一些提示。

临床预测模型中预测变量的选择:很多时候,建立预测模型的一个挑战是,与最终建立的模型相比,我们拥有太多的候选变量。如何从这些候选变量中选择最终的建模变量是建立预测模型的关键步骤。

[regplot]绘制更有颜值的列线图:好的展示形式可以更好地表达好的内容,列线图是临床预测模型的可视化展示形式。regplot是个不错的列线图绘制R包,比nomogram{rms}绘制的列线图更为美观。

二分类结局资料的lasso回归与列线图绘制Lasso回归在临床预测模型中常常作为变量筛选的一种方法。筛选到变量后有两种处理策略,一种是利用这些变量建立logistic/cox回归模型,二是直接利用lasso回归参数来建模。理论上,直接利用lasso回归系数建模才是上选。

每次写重复测量数据的分析笔记,总会有新的收获,希望你也一样。2022年写了3篇重复测量资料的分析笔记:多个分组因素的重复测量资料的方差分析多层混合效应模型分析示例二分类重复测量资料的广义估计方程

缺失值分析是数据处理的重要步骤,缺失值分析基础:敲黑板,划重点带你了解缺失机制有哪些及常见的缺失值处理方法。

多重插补是常见的缺失值处理方法之一。多重插补的过程中生成了m个数据集,最终应使用哪一次的插补结果进行分析多重插补有3个重要的步骤:①创建m个插补集;②分析每个插补集;③合并汇总m个结果。合并汇总才是最佳的选择,其他方法如堆叠加权分析,和将多重插补后每个数据集的结果进行平均一样,忽略了插补集之间的变异性,并不是推荐的分析策略。

随机森林插补随机森林是机器学习领域中非常有名的集成学习算法。以缺失值为因变量、已知变量作为自变量建立随机森林模型就可以实现缺失值的插补。

当遇到非比例风险数据时,时依系数法分段模型分层分析法是最常见的三种处理方法。如果某个分类性质的混杂因素不满足风险比例假定,可以考虑分层分析法。分层分析一般用于混杂因素比较少的情况,且进行分层的变量须是分类变量(分层实际上就是按分层变量的各个水平分为不同的层),每一层内仍然要求保持比例风险假定。

生存分析中的时变协变量与时依系数:严格来说,时变协变量与时依系数并不是一码事。时变协变量是内在时依协变量,而时依系数是外在时依协变量的处理方法。分段模型其实可以看做是时依系数的一个特例,时依系数法在每一个随访时间都进行分段,而分段模型是只是在某个时间点进行分段。

Cox回归一样,竞争风险模型在遇到不满足风险比例假定的情况时也是通过时依系数法、分段模型、分层分析来解决的:生存分析之不满足风险比例假定的竞争风险模型SPSS中可以通过安装R插件来实现竞争风险模型的分析

今年的生存分析部分,我们还转载了一篇KM曲线的R绘制教程:绘制Kaplan-Meier生存曲线的详细教程。这是我见过的最明晰的KM生存曲线绘制教程了。

R笔记:分析数据的导入:在进行数据分析前先要得到数据。很多时候R都是我们最后不得已的选择,面对海量的不同格式的数据,导入才是最佳选择。

多因素方差分析前的正态性和方差齐性考察:正态性是指各个单元格的残差都呈正态分布,方差齐同是指各个单元格的残差的方差相等。理解什么是单元格才能更好地做出正确判断。

多重线性回归中的哑变量设置:哑变量实际上是将分类变量的“连续”化。

已知均值和标准差求Pexcel计算器,欢迎使用。

基线批量分析神器:moonBook & autoReg:一次性批量输出诸多变量对同一个结局的描述性分析结果和比较结果,毕其功于一包。

变量筛选:逐步回归&最优子集变量筛选不是简单地把多因素回归模型中无统计学意义的变量直接删除。StepReg包可以实现三大回归(线性回归、logistic回归和Cox风险比例回归)的逐步回归(向前、向后、双向)和最优子集筛选,而且变量选择标准提供了P值、各种信息准则等多种指标。

倾向性得分校正:倾向性得分分析常用于校正混杂因素的影响,但倾向性得分本身并不能控制混杂,而是需要进一步通过倾向值匹配、分层、加权、回归校正等方法来提高对比组间的均衡性。

Lasso回归概述与JMP示例lasso很好的解决了模型的过拟合、变量共线和样本量不足带来的问题,常用于结局预测、模型选择和因果推断。JMP的交互性和便捷性是很多软件所不能比拟的,不知道为啥在使用上却不远如SPSSSTATA那样广泛。

@元旦快乐@

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多