分享

连续性变量截断家族又添一成员

 松哥精鼎统计 2021-03-05
缘起

      

   Hello,大家好,我是松哥统计,我们知道变量有3兄弟,老大数值变量、老二等级变量、老三是分类变量。三兄弟中老大数值变量身上包含的信息较多,因此,很多的时候,进行分析时,都是以本尊的形式进行分析。

   但是,信息多,有时候也不是好事,比如构建模型时,数值变量从统计上构建没问题,但是从专业上解释,有时候不方便。

    比如血液学指标,比如微量元素测定等,如果单位ng/ml。而模型B的解释为X没改变一个单位,Y的平均改变量。

   您可以想想,改变1ng/ml,专业上能对Y有多大作用呢?几乎微乎其微。因此,我们常常将数值变量进行离散化,降级化。

   其中最简单的就是,分为二分类。

  目前文献报道的二分法有参考值法,中位数法、均数法、ROC法。今天松哥看文献,又发现移动切割法,也是一种挺好的思路哈!

松哥统计说






    其实就是对所有的X的所有取值进行拆分为二分类,然后进行组间比较,取P最小的作为最佳分组。
    这种思想和ROC最佳截断值一致,ROC也是移动截断点,寻找最佳的Yuden指数最大的时候。
    而这篇文章是组间差异检验,寻找最佳P值的时候,作为截断点。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多