开篇明义,概念先行。横断面研究又称横断面调查,因为所获得的描述性资料是在某一时点或在一个较短时间区间内收集的,所以它客观地反映了这一时点的疾病分布以及人们的某些特征与疾病之间的关联。由于收集的资料是调查当时所得到的现况资料,故又称现况研究或现况调查;又因横断面研究所用的指标主要是患病率,因此,又称患病率调查(prevalence survey)。 (1)了解疾病负担:疾病的患病率常常被用来衡量疾病的负担。当需要对一个国家或是一个地区,某种疾病的负担进行描述和比较分析时,需要开展基于横断面研究的患病率统计。 (2)人群特征的估计:横断面研究也经常会被用来估计某个特定人群的习惯或特征,如男性/女性人群中饮酒和吸烟的状况。面对面调查和问卷调查是主要收集信息的方式。例如:了解男性不同年龄段人群吸烟的分布状况,可以在特定时间范围内完成选定人群的问卷调查并按照年龄段分组计算吸烟率。 (3)关于态度、认知和健康行为的调查:研究者可以设计了一项横断面研究来帮助调查了解研究对象对某一事件、知识和现象的态度、认知和行为状况。 (4)关于因果关联的分析:大多数评估暴露与疾病之间关系的分析性观察研究都是队列研究或病例对照研究,但横断面研究有时也可用于因果推断分析。但应用的前提很有限,除非在特殊情况下,否则不能做出因果推论。 横断面研究的主要研究方法包括普查和抽样调查两种,应根据不同研究目的选择,选择合适的研究方法。横断面研究两种方法的特征如下表所示。 横断面研究主要有以下几个特点: 1)观察性:研究本身不施加任何干预或对干预效果进行评价; 2)横断面:研究只观察一个较短的时间段; 3)设计阶段不设对照,但分析阶段可进行分组分析; 4)可同时测量多个变量,如同时调查糖尿病和高血压患病率; 5)确定因果关系受限,但可为探索因果关系研究假说提供依据。 当我们使用抽样调查方法开展横断面研究时,研究对象(即样本人群)的选择首先取决于研究目的;其次则是样本的代表性,在质量方面,随机抽样是样本代表总体的有力保证,在数量方面,足够的样本含量是样本代表总体的有效措施。开始收集相关资料之前,估计样本含量是必不可少的步骤。样本含量估计要考虑三点因素: ①总体标准差平均水平σ的高低,其值越大,所需样本含量越大,一般从以往的研究资料或预调查获得。 ②容许误差δ,即对调查要求的精确性。 ③确定控制容许误差的概率,即显著性水准α,其值越小,可靠性越好,所需样本含量也越大,通常取0.05。 横断面研究样本含量计算方法按不同抽样方法各异。以下主要介绍横断面研究单纯随机抽样样本量计算。根据不同资料类型,使用不同的估计方法。 一、估计总体率所需的样本含量 二、估计总体均数所需的样本含量 公式(1)中,α为显著性水平,一般设为0.05,μα/2值为时对应的标准正态分布曲线下的面积;π为总体率的标准差;δ为容许误差。公式(2)中,为σ总体均数标准差。 无限总体抽样按公式(1),(2)求n,有限总体还需要使用以下校正公式(3)进行校正;公式(3)中N是有限总体包含的单位数。当n/N<0.05时,可省去以下校正。 (一)估计总体率样本含量 为了解某城镇妇女生育率情况,根据现有资料,我国妇女现阶段高龄生育率在0.29上下波动,容许误差定位0.01,α=0.05,估计高龄妇女样本含量。 我们使用公式(1)计算样本量: 结果可得,样本含量需要7910人。 (二)估计总体均数样本含量 某化工厂共有5000名工人,为了解该厂职工白细胞数的平均水平,评价该厂生产条件是否对白细胞数有影响,根据以往资料,职工白细胞总数的标准差为0.95×109/L,希望控制误差不超过0.1×109/L,取α=0.05,问需调查多少人。 我们使用公式(2)计算样本量,由于n/N>0.05,需使用校正公式(3)进行校正: 结果可得,样本含量需要325人。 参考来源: 1.孙振球,徐勇勇.医学统计学:第4版[M].北京:人民卫生出版社.2014. 确定合适的抽样方法,包括: a) 简单随机抽样,是其他抽样的基础,原则为确保总体中每个对象被抽取的机会均等,实际较少采取; b) 系统抽样,按照一定顺序,每隔若干个单位机械的抽取一个个体单位。容易进行,代表性较好,但是不适用于某些总体中存在各单位分布具有周期性规律的情况,因为此时可能使得样本产生偏性(例如疾病的时间分布规律、季节性变化特点); c) 分层抽样,总体先分为若干层,层内分别进行简单随机抽样。实践中常被采用,分层的因素可以是年龄或者性别,或者某个我们认为会显著影响到目标疾病患病情况的因素; d) 整群随机抽样,即总体分为若干个群组,以群组作为抽样单位,抽到哪些群组,这些群组所有的个体就组成了我们的样本。易于实施,成本低,但是抽样误差较大,一般推荐在既有样本量基础上额外增加1/2的样本量; e) 多阶段抽样,适合于全国性质或者多行政区域、多级别的抽样,例如,从基础的家户一级直接一路抽取到省一级,此时就需要采取多节段的抽样方法,根据每个抽样水平,分别制定其抽样具体方法。 首先建议大家看一下上期文章: 看完之后您会发现,仅仅凭横断面研究这种设计,谁也没法告诉您具体研究方法。在这种设计之下,您得根据自己的研究目的和资料类型,才能选择合适的统计分析方法,而且这种方法不是单一的。 包括统计学的一维分析:也就是进行常规的统计学描述分析; 也可以根据研究目的,进行分组,从而进行差异性统计分析,也就是统计学的二维分析。 同样,一维是观察性研究,所受到的混杂干扰因素很多,因此,也可以进行相关分析、单因素和多因素回归分析。 说白了还是松哥的那就话:方法看变量、设计看类型,目的定乾坤。这15个字就是统计分析的15字箴言! ------------------------------ ---统计思维与理论系列--- 【1090.】中英文期刊分类(SCI分区和中文核心),一文秒懂! 【1086.】为啥20分以上SCI论文如此钟情P-interaction! 【1084.】哎呦妈呀!几何均数还有标准差呀?书中从来没说过呀! 【1075.】很有意思的一个统计问题,并发症到底该如何分析? 【1072.】单因素Logistic回归变量筛选,你还在用表表达,看看人家如何可视化的,审稿人看了能不开心吗? 【1070.】性别和吸烟是专业公认的危险因素,为啥多因素分析性别没意义了? 【1061.】这篇SCI的诊断试验结果看不懂,他到底是咋比的 【1055.】单因素是危险因素,多因素却保护因素了,想逆天吗? 【1054.】这种文章统计套路您一定要学,不管你什么专业通杀 【1052.】同一肝癌患者,同时接受CT、超声和磁共振,如何分析? 【1050.】知道两组数据的样本量均数标准差,怎么算合并统计量呢? 【1049.】meta分析软件Revman5.3卡死解决方案 【1047.】两因素方差分析,如何判断哪个因素对结果影响较大? 【1044.】松哥为啥我318样本量统计分析出来确实400样本量? 【1038.】SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您 【1036.】Logistic回归文章的SCI审稿人意见解读 【1034.】正态分布的3个基因密码,聆听大自然心跳的代码! 【1033.】生存分析K-M法与COX回归结论不一致怎么办? 【1031.】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法 【1022.】听完四个小故事,你就明白主成分分析是啥意思了! 【1021.】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整? 【1017.】倾向性评分后数据,应该采用配对设计还是成组设计? 【1009】P<0.05也别理直气壮,统计也会犯错,还分犯I类和II类错误? 【1008】文章鉴析:这篇文章或许有10处不适! 【1007】R×C卡方的Fisher确切概率法为什么会有卡方值 【1002】连续变量变成等级变量后,原来有意义的变量变得没意义了? 【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢 ------------------------------ |
|