【原】【1094.】横断面研究思路与统计分析方法

松哥精鼎统计 2020-10-23

展开全文

缘起

临床科研设计，说简单点就是三看一干，三看就是看当下（横断面）、看过去（病例对照）、看未来（队列研究）；一干就是随机对照试验。那么今天就先聊聊看当下。

1.概念

开篇明义，概念先行。横断面研究又称横断面调查，因为所获得的描述性资料是在某一时点或在一个较短时间区间内收集的，所以它客观地反映了这一时点的疾病分布以及人们的某些特征与疾病之间的关联。由于收集的资料是调查当时所得到的现况资料，故又称现况研究或现况调查；又因横断面研究所用的指标主要是患病率，因此，又称患病率调查(prevalence survey)。

2.用途

（1）了解疾病负担：疾病的患病率常常被用来衡量疾病的负担。当需要对一个国家或是一个地区，某种疾病的负担进行描述和比较分析时，需要开展基于横断面研究的患病率统计。

（2）人群特征的估计：横断面研究也经常会被用来估计某个特定人群的习惯或特征，如男性/女性人群中饮酒和吸烟的状况。面对面调查和问卷调查是主要收集信息的方式。例如：了解男性不同年龄段人群吸烟的分布状况，可以在特定时间范围内完成选定人群的问卷调查并按照年龄段分组计算吸烟率。

（3）关于态度、认知和健康行为的调查：研究者可以设计了一项横断面研究来帮助调查了解研究对象对某一事件、知识和现象的态度、认知和行为状况。

（4）关于因果关联的分析：大多数评估暴露与疾病之间关系的分析性观察研究都是队列研究或病例对照研究，但横断面研究有时也可用于因果推断分析。但应用的前提很有限，除非在特殊情况下，否则不能做出因果推论。

3.特点与类型

横断面研究的主要研究方法包括普查和抽样调查两种，应根据不同研究目的选择，选择合适的研究方法。横断面研究两种方法的特征如下表所示。

横断面研究主要有以下几个特点：

1）观察性:研究本身不施加任何干预或对干预效果进行评价；

2）横断面：研究只观察一个较短的时间段；

3）设计阶段不设对照，但分析阶段可进行分组分析；

4）可同时测量多个变量，如同时调查糖尿病和高血压患病率；

5）确定因果关系受限，但可为探索因果关系研究假说提供依据。

4.样本量

当我们使用抽样调查方法开展横断面研究时，研究对象（即样本人群）的选择首先取决于研究目的；其次则是样本的代表性，在质量方面，随机抽样是样本代表总体的有力保证，在数量方面，足够的样本含量是样本代表总体的有效措施。开始收集相关资料之前，估计样本含量是必不可少的步骤。样本含量估计要考虑三点因素：

①总体标准差平均水平σ的高低，其值越大，所需样本含量越大，一般从以往的研究资料或预调查获得。

②容许误差δ，即对调查要求的精确性。

③确定控制容许误差的概率，即显著性水准α，其值越小，可靠性越好，所需样本含量也越大，通常取0.05。

横断面研究样本含量计算方法按不同抽样方法各异。以下主要介绍横断面研究单纯随机抽样样本量计算。根据不同资料类型，使用不同的估计方法。

一、估计总体率所需的样本含量

二、估计总体均数所需的样本含量

公式(1)中，α为显著性水平，一般设为0.05，μ_α/2值为时对应的标准正态分布曲线下的面积；π为总体率的标准差；δ为容许误差。公式(2)中，为σ总体均数标准差。

无限总体抽样按公式(1)，(2)求n，有限总体还需要使用以下校正公式(3)进行校正；公式(3)中N是有限总体包含的单位数。当n/N<0.05时，可省去以下校正。

（一）估计总体率样本含量

为了解某城镇妇女生育率情况，根据现有资料，我国妇女现阶段高龄生育率在0.29上下波动，容许误差定位0.01，α=0.05，估计高龄妇女样本含量。

我们使用公式(1)计算样本量：

结果可得，样本含量需要7910人。

（二）估计总体均数样本含量

某化工厂共有5000名工人，为了解该厂职工白细胞数的平均水平，评价该厂生产条件是否对白细胞数有影响，根据以往资料，职工白细胞总数的标准差为0.95×109/L,希望控制误差不超过0.1×109/L，取α=0.05，问需调查多少人。

我们使用公式(2)计算样本量，由于n/N＞0.05,需使用校正公式(3)进行校正：

结果可得，样本含量需要325人。

参考来源：

1.孙振球,徐勇勇.医学统计学:第4版[M].北京:人民卫生出版社.2014.

5.抽样方法

确定合适的抽样方法，包括：

a) 简单随机抽样，是其他抽样的基础，原则为确保总体中每个对象被抽取的机会均等，实际较少采取；

b) 系统抽样，按照一定顺序，每隔若干个单位机械的抽取一个个体单位。容易进行，代表性较好，但是不适用于某些总体中存在各单位分布具有周期性规律的情况，因为此时可能使得样本产生偏性（例如疾病的时间分布规律、季节性变化特点）；

c) 分层抽样，总体先分为若干层，层内分别进行简单随机抽样。实践中常被采用，分层的因素可以是年龄或者性别，或者某个我们认为会显著影响到目标疾病患病情况的因素；

d) 整群随机抽样，即总体分为若干个群组，以群组作为抽样单位，抽到哪些群组，这些群组所有的个体就组成了我们的样本。易于实施，成本低，但是抽样误差较大，一般推荐在既有样本量基础上额外增加1/2的样本量；

e) 多阶段抽样，适合于全国性质或者多行政区域、多级别的抽样，例如，从基础的家户一级直接一路抽取到省一级，此时就需要采取多节段的抽样方法，根据每个抽样水平，分别制定其抽样具体方法。

6.统计分析方法

首先建议大家看一下上期文章：

【1093.】临床设计与统计设计:相爱相杀

看完之后您会发现，仅仅凭横断面研究这种设计，谁也没法告诉您具体研究方法。在这种设计之下，您得根据自己的研究目的和资料类型，才能选择合适的统计分析方法，而且这种方法不是单一的。

包括统计学的一维分析：也就是进行常规的统计学描述分析；

也可以根据研究目的，进行分组，从而进行差异性统计分析，也就是统计学的二维分析。

同样，一维是观察性研究，所受到的混杂干扰因素很多，因此，也可以进行相关分析、单因素和多因素回归分析。

说白了还是松哥的那就话：方法看变量、设计看类型，目的定乾坤。这15个字就是统计分析的15字箴言！

------------------------------

---统计思维与理论系列---

【1093.】临床设计与统计设计:相爱相杀

【1092.】为什么一篇文章要建立5个模型

【1091】混杂因素与交互作用杂谈！

【1090.】中英文期刊分类（SCI分区和中文核心），一文秒懂！

【1089.】看懂此图，统计开悟！松哥荐读

【1088.】模型发现有交互作用怎么办？怎么解释呢！

【1087.】LASSO：变量选择利器！

【1086.】为啥20分以上SCI论文如此钟情P-interaction！

【1085.】正态性不符合怎么办？其实没啥大事！

【1084.】哎呦妈呀！几何均数还有标准差呀？书中从来没说过呀！

【1083.】交叉验证是啥个意思，是换妻游戏吗？

【1082.】不懂统计思维的统计是没有灵魂的！

【1081.】造假大识别，这种假都敢造！

【1080.】辨析丨啥？统计上还有q值，和P值啥关系？

【1079.】这种造假方式，您能识别吗？

【1078.】SCI相关分析比中文正规的3点理由

【1077.】临床科研设计与数据分析9大易忽视错误（推荐）

【1076.】这种套路可以学，怎么化无意义为有意义！

【1075.】很有意思的一个统计问题，并发症到底该如何分析？

【1074.】一文了解主流统计软件

【1073.】WHAT！计算机随机序列竟然是伪随机

【1072.】单因素Logistic回归变量筛选，你还在用表表达，看看人家如何可视化的，审稿人看了能不开心吗？

【1071.】SCI论文中回归模型样本量确定标准，建议阅读

【1070.】性别和吸烟是专业公认的危险因素，为啥多因素分析性别没意义了？

【1069.】数值变量应该以何种形式进入模型

【1068.】多项分类变量进入模型的正确姿势

【1067.】这种随意拆分的错误不能犯

【1066.】SCI统计方法写作秘籍

【1065.】这篇SCI论文10个统计问题辨析

【1064.】以前认为概念无所谓，其实松哥错了

【1063.】松哥，我发现一处SCI统计错误，非常荒谬！

【1062.】分类变量哑变量设置后，参照到底如何选择？

【1061.】这篇SCI的诊断试验结果看不懂，他到底是咋比的

【1060.】如何向统计老师咨询统计问题的正确姿势

【1059.】生存分析单因素筛选的困惑

【1058.】4种最常用的统计设计解读

【1057.】SPSS统计软件学习终身不忘之必杀技

【1056.】回归家族的书剑恩仇录，高手进阶必经之路

【1055.】单因素是危险因素，多因素却保护因素了，想逆天吗？

【1054.】这种文章统计套路您一定要学，不管你什么专业通杀

【1053.】这个空白对照到底要不要加？

【1052.】同一肝癌患者，同时接受CT、超声和磁共振，如何分析？

【1051.】来自临床真实问题，有点意思，松哥荐读！

【1050.】知道两组数据的样本量均数标准差，怎么算合并统计量呢？

【1049.】meta分析软件Revman5.3卡死解决方案

【1048.】P>0.05，本身就是没意义还是样本量不够？

【1047.】两因素方差分析，如何判断哪个因素对结果影响较大？

【1046.】带基线数据数值变量如何进行统计分析辨析

【1045.】统计学习之最大困惑！！

【1044.】松哥为啥我318样本量统计分析出来确实400样本量？

【1043.】这两个是啥图？区别和联系

【1042.】变量之间到底是单项转化还是双向转化

【1041.】统计水平自我评估表

【1040.】基线分析的3个终极目的

【1039.】统计小白的学习路径

【1038.】SCI论文中Logistic回归模型“门当户对”原则，松哥心得推荐给您

【1037.】被我们忽视的生存分析区间删失数据

【1036.】Logistic回归文章的SCI审稿人意见解读

【1035.】统计学上的2K效应，你发现了没？

【1034.】正态分布的3个基因密码，聆听大自然心跳的代码！

【1033.】生存分析K-M法与COX回归结论不一致怎么办？

【1032.】异常值的处理只有删除？

【1031.】没有比较就没有伤害，让咱们互相伤害吧，教你4大类统计伤害方法

【1030.】SCI审稿人让我控制2个单因素无意义的变量？

【1029.】量表评价是信度重要还是效度重要？

【1028.】Meta分析要解决的首要任务

【1027.】文章材料与方法中统计方法如何描述

【1026.】这个到底是啥统计设计？一起来看看！

【1025.】聚类分析稳定性判别的经验总结

【1024.】“参数检验与非参数检验”哪个更好？

【1023.】干预前后数据统计分析方法

【1022.】听完四个小故事，你就明白主成分分析是啥意思了！

【1021.】方差分析P>0.05，两两比较LSD法P<0.05，这可咋整？

【1020.】等级与等比，可得分清楚！

【1019.】频率与概率，如胶又似漆！

【1018.】终于发现不用学习，顿悟统计的方法

【1017.】倾向性评分后数据，应该采用配对设计还是成组设计？

【1016.】统计必学的4个核心思想

【1015.】加权最小二乘回归是什么鬼？

【1014.】平行性检验到底应该啥时候做？

【1009】P<0.05也别理直气壮，统计也会犯错，还分犯I类和II类错误？

【1008】文章鉴析：这篇文章或许有10处不适！

【1007】R×C卡方的Fisher确切概率法为什么会有卡方值

【1006】大小优指标如何同时制作ROC曲线[经验技巧]

【1005】统计方法与统计思想谁重要？

【1004】别说相关太简单，且听松哥说相关

【1003】正态分布10种鉴别方法汇总【荐藏】

【1002】连续变量变成等级变量后，原来有意义的变量变得没意义了？

【1001】SCI论文中的P for trend是什么鬼？为什么高分文章经常采用呢

------------------------------

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：松哥精鼎统计 > 《待分类》

举报/认领