分享

【1084.】哎呦妈呀!几何均数还有标准差呀?书中从来没说过呀!

 松哥精鼎统计 2020-10-23
缘起
      看到一篇日本学者发表的SCI论文,竟然采用几何均数和几何均数的标准差来描述一组数值变量数据,Geometric mean(Geometric SD),哇塞,感觉松哥有点孤陋寡闻了,平生第一次见到呀,有点意思,研究一下!

1.背景知识普及





      我们知道变量家族有三个兄弟:数值变量、等级变量和分类变量,其中数值变量所包含的信息最多,因此成为三兄弟中的老大。

      老大具有集中和离散两种趋势,我们在统计分析时,对于老大的集中趋势常用有3个指标描述:均数(mean)、中位数(median)和几何均数(geometric mean);而离散趋势指标包括极差(range),四分位数间距(quartile)、离均差平方和(sum of square,SS),方差(s2)、标准差(s)和变异系数(CV)。
        
       而我们研究中,遇到老大数据进行统计描述的时候,已经形成标准范式了,那就是数据符合正态分布采用mean±SD进行表示;数据不符合正态分布时,采用Median(Q1,Q3)表示。采用Geometric mean(Geometric SD),着实少见!

2.案例呈现





      论文题名:The interaction between mitochondrial haplogroups (M7a/D) and physical activity on adiponectin in a Japanese population。如下来自该文Tab 1。
      表下方红色备注为:Geometric mean(Geometric SD)
      

3.案例解读





      Geometric mean(Geometric SD)是对表中最后两个指标进行描述的。为啥呢?因为作者的研究数据肯定最后两个指标为右偏态分布资料(或者等比资料,取对数后呈现正态分布资料)。
      几何均数利用软件很好计算,但是其标准差怎么算呢?统计书上从来没讲过呀?
      哎,文字太无力,录段小视频吧!后面再给大家介绍下这种数据正常情况下SCI论文时如何表示的。

4.松哥统计说





     虽然松哥带着大家解决了几何均数和其标准差的问题,但是关于这个事,咱么还得讨论一下。首先这种表达方式确实少见,如果遇到奇葩的杂志,非要用这种方法表达,那就按照松哥讲授的方法进行计算即可。
      但是,为啥大家以前很少用这种方法呢?那是因为,以前我们遇到这样的问题,我们是对原始数据取对数,然后直接计算对数后的均数和标准差即可的哦!如下表:

如上表中的Log Pro-BNP,就是对Pro-BNP取对数,然后后面就是采用均数加减标准差进行展示。

上表最后一行利用Pro-BNP的原形数据描述,采用的是中位数和四分位数间距。然而作者在后面的单因素分析和多因素分析中,均采用的是Log Pro-BNP。

也就是单因素差异分析,作者对Log Pro-BNP进行的t检验,对Pro-BNP采用的是非参数秩和检验。有人说这不是多此一举吗?通常我们只做一个,但是做两个也不为过,类似于敏感性分析,两种检验均证实Pro-BNP确实组间存在差异。。

Tab 2为单因素分析表

Tab 3为多因素分析表

Tab 2和Tab 3中,只纳入了Log Pro-BNP,为啥?因为Log Pro-BNP更对称更正态呀!

也许有人还会问,为啥多因素分析表只纳入了两个因素呢?那是因为,在单因素分析表中,只有这两个是有意义的呀!

右偏态分布建议取自然对数

参考文献

1.Pro B-type natriuretic peptide plasma value: A new criterion for the prediction of short- and long-term outcomes after transcatheter aortic valve implantation.

2.The logarithmic transformation and the geometric mean in reporting experimental IgE results: what are they and when and why to use them?

3.Serum Matrix Metalloproteinases and Left Atrial Remodeling—The Hoorn Study

---统计思维与理论系列---

【1083.】交叉验证是啥个意思,是换妻游戏吗?

【1082.】不懂统计思维的统计是没有灵魂的!

【1081.】造假大识别,这种假都敢造!

【1080.】辨析丨啥?统计上还有q值,和P值啥关系?

【1079.】这种造假方式,您能识别吗?

【1078.】SCI相关分析比中文正规的3点理由

【1077.】临床科研设计与数据分析9大易忽视错误(推荐)

【1076.】这种套路可以学,怎么化无意义为有意义!

【1075.】很有意思的一个统计问题,并发症到底该如何分析?

【1074.】一文了解主流统计软件

【1073.】WHAT!计算机随机序列竟然是伪随机

【1072.】单因素Logistic回归变量筛选,你还在用表表达,看看人家如何可视化的,审稿人看了能不开心吗?

【1071.】SCI论文中回归模型样本量确定标准,建议阅读

【1070.】性别和吸烟是专业公认的危险因素,为啥多因素分析性别没意义了?

【1069.】数值变量应该以何种形式进入模型

【1068.】多项分类变量进入模型的正确姿势

【1067.】这种随意拆分的错误不能犯

【1066.】SCI统计方法写作秘籍

【1065.】这篇SCI论文10个统计问题辨析

【1064.】以前认为概念无所谓,其实松哥错了

【1063.】松哥,我发现一处SCI统计错误,非常荒谬!

【1062.】分类变量哑变量设置后,参照到底如何选择?

【1061.】这篇SCI的诊断试验结果看不懂,他到底是咋比的

【1060.】如何向统计老师咨询统计问题的正确姿势

【1059.】生存分析单因素筛选的困惑

【1058.】4种最常用的统计设计解读

【1057.】SPSS统计软件学习终身不忘之必杀技

【1056.】回归家族的书剑恩仇录,高手进阶必经之路

【1055.】单因素是危险因素,多因素却保护因素了,想逆天吗?

【1054.】这种文章统计套路您一定要学,不管你什么专业通杀

【1053.】这个空白对照到底要不要加?

【1052.】同一肝癌患者,同时接受CT、超声和磁共振,如何分析?

【1051.】来自临床真实问题,有点意思,松哥荐读!

【1050.】知道两组数据的样本量均数标准差,怎么算合并统计量呢?

【1049.】meta分析软件Revman5.3卡死解决方案

【1048.】P>0.05,本身就是没意义还是样本量不够?

【1047.】两因素方差分析,如何判断哪个因素对结果影响较大?

【1046.】带基线数据数值变量如何进行统计分析辨析

【1045.】统计学习之最大困惑!!

【1044.】松哥为啥我318样本量统计分析出来确实400样本量?

【1043.】这两个是啥图?区别和联系

【1042.】变量之间到底是单项转化还是双向转化

【1041.】统计水平自我评估表

【1040.】基线分析的3个终极目的

【1039.】统计小白的学习路径

【1038.】SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您

【1037.】被我们忽视的生存分析区间删失数据

【1036.】Logistic回归文章的SCI审稿人意见解读

【1035.】统计学上的2K效应,你发现了没?

【1034.】正态分布的3个基因密码,聆听大自然心跳的代码!

【1033.】生存分析K-M法与COX回归结论不一致怎么办?

【1032.】异常值的处理只有删除?

【1031.】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法

【1030.】SCI审稿人让我控制2个单因素无意义的变量?

【1029.】量表评价是信度重要还是效度重要?

【1028.】Meta分析要解决的首要任务

【1027.】文章材料与方法中统计方法如何描述

【1026.】这个到底是啥统计设计?一起来看看!

1025.聚类分析稳定性判别的经验总结

【1024.】“参数检验与非参数检验”哪个更好?

【1023.】干预前后数据统计分析方法

【1022.】听完四个小故事,你就明白主成分分析是啥意思了!

【1021.】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整?

【1020.】等级与等比,可得分清楚!

【1019.】频率与概率,如胶又似漆!

【1018.】终于发现不用学习,顿悟统计的方法

【1017.】倾向性评分后数据,应该采用配对设计还是成组设计?

【1016.】统计必学的4个核心思想

【1015.】加权最小二乘回归是什么鬼?

【1014.】平行性检验到底应该啥时候做?

【1013】统计的4维空间(一维一层天)

【1012】到底做相关?还是方差分析呢?

【1011】这篇文章凭啥这样分组呢?

【1010】常用统计分析方法选择图解

【1009】P<0.05也别理直气壮,统计也会犯错,还分犯I类和II类错误?

【1008】文章鉴析:这篇文章或许有10处不适!

【1007】R×C卡方的Fisher确切概率法为什么会有卡方值

【1006】大小优指标如何同时制作ROC曲线[经验技巧]

【1005】统计方法与统计思想谁重要?

【1004】别说相关太简单,且听松哥说相关

【1003】正态分布10种鉴别方法汇总【荐藏】

【1002】连续变量变成等级变量后,原来有意义的变量变得没意义了?

【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢

------------------------------

---统计思维与理论系列---

【1083.】交叉验证是啥个意思,是换妻游戏吗?

【1082.】不懂统计思维的统计是没有灵魂的!

【1081.】造假大识别,这种假都敢造!

【1080.】辨析丨啥?统计上还有q值,和P值啥关系?

【1079.】这种造假方式,您能识别吗?

【1078.】SCI相关分析比中文正规的3点理由

【1077.】临床科研设计与数据分析9大易忽视错误(推荐)

【1076.】这种套路可以学,怎么化无意义为有意义!

【1075.】很有意思的一个统计问题,并发症到底该如何分析?

【1074.】一文了解主流统计软件

【1073.】WHAT!计算机随机序列竟然是伪随机

【1072.】单因素Logistic回归变量筛选,你还在用表表达,看看人家如何可视化的,审稿人看了能不开心吗?

【1071.】SCI论文中回归模型样本量确定标准,建议阅读

【1070.】性别和吸烟是专业公认的危险因素,为啥多因素分析性别没意义了?

【1069.】数值变量应该以何种形式进入模型

【1068.】多项分类变量进入模型的正确姿势

【1067.】这种随意拆分的错误不能犯

【1066.】SCI统计方法写作秘籍

【1065.】这篇SCI论文10个统计问题辨析

【1064.】以前认为概念无所谓,其实松哥错了

【1063.】松哥,我发现一处SCI统计错误,非常荒谬!

【1062.】分类变量哑变量设置后,参照到底如何选择?

【1061.】这篇SCI的诊断试验结果看不懂,他到底是咋比的

【1060.】如何向统计老师咨询统计问题的正确姿势

【1059.】生存分析单因素筛选的困惑

【1058.】4种最常用的统计设计解读

【1057.】SPSS统计软件学习终身不忘之必杀技

【1056.】回归家族的书剑恩仇录,高手进阶必经之路

【1055.】单因素是危险因素,多因素却保护因素了,想逆天吗?

【1054.】这种文章统计套路您一定要学,不管你什么专业通杀

【1053.】这个空白对照到底要不要加?

【1052.】同一肝癌患者,同时接受CT、超声和磁共振,如何分析?

【1051.】来自临床真实问题,有点意思,松哥荐读!

【1050.】知道两组数据的样本量均数标准差,怎么算合并统计量呢?

【1049.】meta分析软件Revman5.3卡死解决方案

【1048.】P>0.05,本身就是没意义还是样本量不够?

【1047.】两因素方差分析,如何判断哪个因素对结果影响较大?

【1046.】带基线数据数值变量如何进行统计分析辨析

【1045.】统计学习之最大困惑!!

【1044.】松哥为啥我318样本量统计分析出来确实400样本量?

【1043.】这两个是啥图?区别和联系

【1042.】变量之间到底是单项转化还是双向转化

【1041.】统计水平自我评估表

【1040.】基线分析的3个终极目的

【1039.】统计小白的学习路径

【1038.】SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您

【1037.】被我们忽视的生存分析区间删失数据

【1036.】Logistic回归文章的SCI审稿人意见解读

【1035.】统计学上的2K效应,你发现了没?

【1034.】正态分布的3个基因密码,聆听大自然心跳的代码!

【1033.】生存分析K-M法与COX回归结论不一致怎么办?

【1032.】异常值的处理只有删除?

【1031.】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法

【1030.】SCI审稿人让我控制2个单因素无意义的变量?

【1029.】量表评价是信度重要还是效度重要?

【1028.】Meta分析要解决的首要任务

【1027.】文章材料与方法中统计方法如何描述

【1026.】这个到底是啥统计设计?一起来看看!

1025.聚类分析稳定性判别的经验总结

【1024.】“参数检验与非参数检验”哪个更好?

【1023.】干预前后数据统计分析方法

【1022.】听完四个小故事,你就明白主成分分析是啥意思了!

【1021.】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整?

【1020.】等级与等比,可得分清楚!

【1019.】频率与概率,如胶又似漆!

【1018.】终于发现不用学习,顿悟统计的方法

【1017.】倾向性评分后数据,应该采用配对设计还是成组设计?

【1016.】统计必学的4个核心思想

【1015.】加权最小二乘回归是什么鬼?

【1014.】平行性检验到底应该啥时候做?

【1013】统计的4维空间(一维一层天)

【1012】到底做相关?还是方差分析呢?

【1011】这篇文章凭啥这样分组呢?

【1010】常用统计分析方法选择图解

【1009】P<0.05也别理直气壮,统计也会犯错,还分犯I类和II类错误?

【1008】文章鉴析:这篇文章或许有10处不适!

【1007】R×C卡方的Fisher确切概率法为什么会有卡方值

【1006】大小优指标如何同时制作ROC曲线[经验技巧]

【1005】统计方法与统计思想谁重要?

【1004】别说相关太简单,且听松哥说相关

【1003】正态分布10种鉴别方法汇总【荐藏】

【1002】连续变量变成等级变量后,原来有意义的变量变得没意义了?

【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢

------------------------------

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多