2017年8月中旬统计咨询回复

ABCmedic 2017-08-22

展开全文

从2017年6月22日起，本号为网友们提供统计免费统计咨询服务，各位可在本公众号后台回复“统计咨询”,并严格按照提示的方法操作后进行咨询（方法如不正确，可能会严重影响咨询的效率哦。）

要求：提问必须严格按照要求提问，提问务求详细说明，特别是背景资料以及相关指标的数据类型等，本公众号将将尽可能在1-3个天内回复网友的提问，但并非全部回答，以下情况可能无法成功获取回复：超出本公众号能力的问题、提问不清晰的问题、有歧义的问题、问题太多无法一一回复时……

如不能获取回复，可在3天内修改提问方式后重新提问，为了避免资源滥用，在本公众号智能检索后已获取答案的问题不要重复提问，敬请配合。

所有答复将公开回复，不私聊回复，因此提问请勿涉及商业秘密和个人隐私，由于水平有限，欢迎各位网友指出回复中谬误之处。

温馨提示：提问的质量高，回复的质量也会高。提问质量低，老师只能猜着回复，答案只能泛泛而谈。

问题不要提得太大！！！

此外，为了提高咨询的效率，建议咨询者先购买本公众号编著的《SPSS常用统计分析教程(SPSS 22.0中英文版)(第4版)》、《Minitab 统计分析方法及应用(第2 版)》等书，根据咨询回复再到书上找答案，可达到事半功倍的效果。

如何获取回复答案，请通过公众号底部中央菜单进入或扫描如下二维码进入。

华丽分割线

以下为问题回复区

日期：2017-8-20

问题：《Bonferroni：Step by Step 攻克两两比较》上述提到的四种Bonferroni方法在文章中该如何描述？谢谢。我在文献中看到了非参数后Dunn-Bonferroni test的描述;单因素方差分析后用a Bonferroni test for post hoc comparions 的描述;卡方检验用Bonferroni correction 的描述。好困惑该如何描述

回复：其实，就如一个人有多个名字而已，回复“Bonferroni”可查看更多相关的文章。

问题：你好，請問一下，這個圖標中上面的凸出來的線條表示什麼意思呢？

回复：该图称为区间条形图，是为条形图与区间图的组合，可同时比较数据的集中趋势与离散趋势。典型的区间条形图如下图，条形图上方的“工”字型线条称为区间条，区间条可以集中趋势（平均值、中位数）的置信区间，n个标准误，n个标准差等。还可以选择显示双侧区间（如下图）、上单侧区间（如上图）、下单侧区间等。

该图摘自本公众号编著的《Minitab 统计分析方法及应用(第2 版)》P610，该章节为免费赠书，可回复“minitab17”获取下载赠书。

统计咨询：条形图上方有条天线，那是什么鬼？

日期：2017-8-17

问题：李老师，因果推断，病例对照研究能够说明吗？我理解的是病例对照不能满足先因后果的时间顺序，它只能表示关联性，不能推导因果关系。我理解是对的吗？

回复：阅读这篇文章：《临床研究方法学（三）：因果关系的推导及一些相关的概念》或许对您有帮助。

日期：2017-8-15

问题：有个问题请教霍兰德职业兴趣问卷只需要算出粗分就可以看到结果了，而俄勒冈职业兴趣问卷需要将原始分在转化成T分才可以看到测评结果，如果这两者之间做相关，需要将霍兰德职业兴趣问卷的结果也转化为T分，然后在进行相关比较么？

回复：线性相关（Pearson相关）可用于描述直线关系的两个变量间相关密切程度和相关方向，并要求两个变量都是随机变量，且服从二元正态分布的资料。如果资料不服从正态分布，应先通过变量变换，使之正态化，再根据变换值计算相关系数。如果两个变量为非线性关系，或不服从二元正态分布，可进行非参数相关分析，例如：Spearman 等级相关分析和Kendall' Tau-b 等级相关分析等。至于是否需要转化成T分数，应根据专业上判断。

问题：想请教老师，随机对照试验的两组样本量是否必须保持一致？

回复：可以不一致。

问题：想要对两个连续变量的关系进行拟合，因变量为服从对数分布的变量，存在较多负值；自变量为年龄。通过spss中的曲线估计实现过程中出现的问题如下： 1.是否可以通过转换因变量数据，然后进行指数拟合？（因变量中较多负值，无法进行对数转换，除了+1之外，是否有其他方法转换数据？） 2.用曲线估计中的逆模型进行拟合后，拟合优度较高，且模型有意义，此时的模型应该如何解释？（例：是否可以如一次拟合那样解释：随着年龄的增高，因变量呈现上升／下降趋势？） 3.因变量除受年龄影响外，还受其他其他因素影响，想要更好地拟合因变量和年龄，需要去除其他因素对因变量的影响，继而再进行拟合。除了使用线性回归模型保存残差法（两个变量都需转换）之外，是否有只需要变换因变量的方法？谢谢老师

回复：1、如需对负值进行对数变化，可加上一个常数使所有数值均变换为大于0的数值后再进行变换。2、该方法是可行，也可以使用非线性回归，探索更优的方程（R方更大）。3、多重线性回归不一定要求所有变量均符合正态分布，难以给出一个准确答案。

问题：我想咨询一下，在诊断性评价计算敏感性、特异性、似然比的时候，我的表格不是经典四个表，而是3*3表格（金标准分三层，如阴性、良性肿瘤、恶性肿瘤，诊断结果也分三层。），这种情况该如何计算呢？

回复：敏感性、特异性、似然比等指标只能用于诊断类型为真/假、阳性/阴性、有病/无病等二分类资料。您描述的情况属于有序观测结果的一致性分析，可考虑采用有序资料一致性的Kappa系数（建议用加权Kappa系数）、类内相关系数（ICC）、Kendall一致性系数等。

日期：2017-8-13

问题：老师您好，继续接上个问题，（1）曲线估计中包含一次拟合，如果做一次拟合是否需要数据正态分布？（因为二次和三次拟合，部分系数p值大于0.05）；（2）数据用单样本K-S检验，符合指数分布，但大部分数据都小于零，请问有什么方法可以转换数据，然后做指数拟合吗？谢谢老师！

回复：我们之前讨论过，线性回归（OLS回归）应满足OLS假设，这些假设包括：（1）回归模型的系数为线性系数；（2）残差的均值为0；（3）所有预测变量都与残差不相关；（4）残差之间互不相关（序列相关）；（5）残差具有恒定方差；（6）预测变量间互不完全相关（r=1），好也避免不完全的高度相关（多重共线性）；（7）残差呈正态分布。并不要求因变量或自变量符合正态分布。

是否进行指数拟合，取决于当因变量Y与自变量X之间是否不呈线性关系，如是，可考虑对X作某种变换，以改善回归方程的拟合优度。如果数据变换恰当，应使决定系数R²明显增大。SPSS提供了非常简单的曲线拟合功能，可参考《简单方便的曲线拟合》一文的方法或《SPSS常用统计分析教程(SPSS 22.0中英文版)(第4版)》P185的介绍，可以进行非线性回归，之前的咨询曾多次讨论回归相关问题，建议回复“统计咨询”下载以往回复合集。

问题：老师您好！还是上回的问题，想问一下，如果我想对年龄和ALFF值进行曲线估计，分别进行一次和二次拟合，这个也需要因变量正态分布吗？

回复：曲线拟合或非线性回归并不要求因变量服从正态分布，一般根据决定系数（决定系数R²是最常用于评价回归模型优劣程度的指标，R²越大（接近于1），所拟合的回归方程越优）并充分考虑专业知识、结合实际解释和应用效果来确定最终的曲线。

问题：请教老师对两组生活质量（4个纬度干预前，干预3个月，干预6个月）的比较为什么要用重复测量方差分析？F组间，F时间，F交互的结果怎么看？

回复：重复测量设计（repeatedmeasurement design），是指在给予一种或多种处理后，同一受试对象的某一观察指标在不同时间点上进行多次测量的设计方法，如服用某种药物后测定不同时间点的血药浓度，接受治疗后在不同时间点上对某指标进行测量，这种设计方法在医学研究领域中有着广泛的应用，常用来分析不同处理在不同时间点上的变化情况。重复测量设计与随机区组设计有相似之处，但二者有实质性差异。在随机区组设计中，同一区组的每一受试对象随机分配，接受不同的处理；而对于重复测量设计，通常是对同一受试对象在各时间点进行测量，由于不同时间上的测量结果可能存在相关性，因此需要采用特殊的统计方法进行分析。至于是否用重复测量方差分析，需要根据您的课题设计决定。重复测量方差分析的结果解答，请参考《SPSS常用统计分析教程(SPSS 22.0中英文版)(第4版)》、《Minitab 统计分析方法及应用(第2 版)》以及有关统计教材的相关章节。

日期：2017-8-11

问题：请问Minitab 统计分析方法及应用(第2版)的250页（7）月份8批次;P=0.021<>

回复：非常感谢指出笔误，此处应为“;P=0.021<>

问题：我想问下，两个变量均为无序二分类变量，相关分析怎样设置、分析步骤自己结果解释？谢谢老师。

回复：《SPSS中的“相关”分析》一文曾介绍过，以下指标可视为名义变量的“相关分析”，此外四个表的卡方检验也可以检验两个变量间有无“关联”?操作方法可参考《四格表卡方、校正卡方、Fisher之SPSS实现》以及下图实现。

（三）名义（双向无序）资料的相关

对于行变量和列变量均为名义数据（nominal data）（无内在顺序，如工人、农民等）的情况，即双向无序资料，

1、列联系数

属于独立性卡方检验，可用于描述两个分类变量之间的关联程度，系数值介于0至1之间，系数值越接近0，说明两个分类变量几乎没有关系，越接近1，说明关系越密切。

2、Φ系数和Cramer V系数

Φ系数和Cramer V系数均属于独立性卡方检验，可用于描述两个分类变量之间的关联程度，系数值越接近0，说明两个分类变量几乎没有关系，越接近1，说明关系越密切。Φ系数只适用于四格表资料，对于多行多列资料，只能采用Cramer V系数和列联系数。

3、Lambda（λ统计量）