【原】[图文年终盘点]路向长江上,帆扬细雨时！

Memo_Cleon 2022-12-31 发布于上海

展开全文

2023年已经开始检票了！

多年以后如能回顾2022年，我的开头一定带着悲伤与遗憾。这一年，有人看到了星辰大海，有人见到了陌上尘埃。这一年，我在上海始于一个平凡的开端，历过几个月的疫情封控，有失去亲人悲痛，也有生活里的郁意难平，终于一场新冠感染的好转。

还好，一切都要翻篇了，就把一切的不愉快都留在2022年吧！

期待2023年的美好！

=====================

2022年统计浆糊图文盘点

[链接可点击]

如果你没有听过临床预测模型，那你一定是很久很久没读文献了。临床预测模型在这几年可是火出圈了，如果你也想了解一下，不妨读一读：临床预测模型[序]：来看看这样建立的模型哪里需要改进？

做临床预测模型有很多细节是需要注意的，比如预测变量应以何种形式纳入模型、离群值如何处理等。临床预测模型中预测变量的编码：预测变量纳入模型的形式一文或许能给你一些提示。

临床预测模型中预测变量的选择：很多时候，建立预测模型的一个挑战是，与最终建立的模型相比，我们拥有太多的候选变量。如何从这些候选变量中选择最终的建模变量是建立预测模型的关键步骤。

[regplot]绘制更有颜值的列线图：好的展示形式可以更好地表达好的内容，列线图是临床预测模型的可视化展示形式。regplot是个不错的列线图绘制R包，比nomogram{rms}绘制的列线图更为美观。

二分类结局资料的lasso回归与列线图绘制：Lasso回归在临床预测模型中常常作为变量筛选的一种方法。筛选到变量后有两种处理策略，一种是利用这些变量建立logistic/cox回归模型，二是直接利用lasso回归参数来建模。理论上，直接利用lasso回归系数建模才是上选。

每次写重复测量数据的分析笔记，总会有新的收获，希望你也一样。2022年写了3篇重复测量资料的分析笔记：多个分组因素的重复测量资料的方差分析、多层混合效应模型分析示例、二分类重复测量资料的广义估计方程。

缺失值分析是数据处理的重要步骤，缺失值分析基础：敲黑板，划重点带你了解缺失机制有哪些及常见的缺失值处理方法。

多重插补是常见的缺失值处理方法之一。多重插补的过程中生成了m个数据集，最终应该使用哪一次的插补结果进行分析呢？多重插补有3个重要的步骤：①创建m个插补集；②分析每个插补集；③合并汇总m个结果。合并汇总才是最佳的选择，其他方法如堆叠加权分析，和将多重插补后每个数据集的结果进行平均一样，忽略了插补集之间的变异性，并不是推荐的分析策略。

随机森林插补：随机森林是机器学习领域中非常有名的集成学习算法。以缺失值为因变量、已知变量作为自变量建立随机森林模型就可以实现缺失值的插补。

当遇到非比例风险数据时，时依系数法、分段模型、分层分析法是最常见的三种处理方法。如果某个分类性质的混杂因素不满足风险比例假定，可以考虑分层分析法。分层分析一般用于混杂因素比较少的情况，且进行分层的变量须是分类变量（分层实际上就是按分层变量的各个水平分为不同的层），每一层内仍然要求保持比例风险假定。