分享

文章解读

 生物_医药_科研 2018-12-15

研究亮点

文章利用了两个代表一般人群的数据库SEER与NAACCR,对TGCA与两个数据库的患病人群特征作对比。利用t检验、Fisher检验、logistic回归、残差分析、限制性平均存活时间分析等经典统计方法,证明了TCGA患病人群的种族、性别、诊断年龄、诊断时患病阶段(癌症的早中晚期)等特征与两个数据库代表的一般患病人群在均值比较中部分癌症类别有显著性差异。

研究背景

每种癌症的队列研究的人群组成是重要的考量因素,因为由这些样本产生的结果可以用于推断一般人群的各自癌症类型。而不同的遗传背景(种族等因素)可能影响癌症发病机制和治疗效果等。另外,性别和年龄差异也对肿瘤进程有巨大的影响。近年来,伴随着基因测序技术和生物信息学的技术,各种癌症发生相关的分子畸变得到了更加深入的理解。公共癌症基因组数据库有助于全面了解癌症的分子发病机制,并影响了后续的癌症诊断、治疗和预防。

TCGA (癌症基因组学图谱)成立于2005年,当时美国国家癌症和国家人类基因组研究所联合起来支持该项目的启动,以全面绘制各种癌症基因组变化。迄今为止,已有超过11,000名患有33种癌症类型的人被纳入该队列。TCGA的数据库已经被广泛用于被收录于PubMed网站的超过2000项癌症相关研究中。

之前的研究表明,种族通常被用作祖先和社会病因的代表因素,与癌症的发病机制有关,常见肿瘤类型的不同遗传背景可能影响临床结果和对治疗的反应。证据表明体细胞突变在各种癌症类型中,种族的频率因种族而异,这意味着与种族相关的因素可能影响体细胞突变。其他证据也强调了性别和年龄差异对癌症遗传易感性的影响。

TCGA数据主要来自具有严格样本选择标准的癌症患者的合格便利样本,所以TCGA的患病组样本特征可能与在一般人群中诊断出癌症的人群特征存在差异,如果TCGA与正常人群中患病群体的体征真的存在显著性的差异,那么其相关的研究结论是否能作为一般人群患癌的临床证据就存疑了。

尽管有关于TCGA数据库相对于一般人群癌症病历的临床和人口统计学上存在差异的报道,但并未系统地评估此差异。在本研究中,研究者通过对比TCGA癌症病例和2个基于人群的数据库的33种癌症类型的统计学与临床特征(诊断时的年龄、性别、种族、诊断阶段、生存时间),扩展了以往此类研究的结果。

研究方法

本研究用了两个数据库的人群特征与TCGA做对比,这两个数据库分别是:1. SEER 18 数据库,目前涵盖了约28%美国人群;2. 北美中央癌症登记协会(NAACCR)的美国联合登记处,涵盖所有50个州和哥伦比亚特区的癌症登记。因为SEER过度采样了美国的少数人群,研究者采用NAACCR来对比种族分布。

来自TCGA的XML文件包含了人口资料、癌症变量和随访状态等数据,Python 3.6.0用以提取这些变量。人口资料变量包括性别年龄和种族。

STATA version 14用以统计分析。本文用了T检验来量化差异,用了Cohen’s d分析来估计研究的效应量大小(effect sizes)。Cohen’sd> 0.3则表明有至少中度的效应量。线性回归(最小二乘法)被用来估计总的TCGA与SEER之间的不同癌症病例的年龄区别。卡方检验和Fisher检验则用以鉴别性别、种族和癌症阶段的数据有无显著区别。

此外,对于种族和阶段比较,使用经调整的残差来确定样本量具有最大差异的类别。 调整后的残差≥2.0表明TCGA案例中特定种族或阶段类别的比例明显高于比较人群,而调整后的残差≤-2.0表示比例显着较低。此外本研究还用了限制性平均存活时间(RMST)分析来量化所有原因造成的患者存活月数,以12个月为终点,以确保所有样本有相同的观察窗口。除了估计两组间平均存活率的差异,也用了广义线性回归模型,通过诊断年龄,性别,种族和患病阶段对模型进行调整。

研究结果

1.诊断年龄

同癌症类型下的TCGA 患者的诊断年龄要比SEER患者年轻3.9岁(95% CI: 1.7–6.2, P <><>

Fig.1 诊断年龄差别

图解:y轴显示了Cohen’s d的效应量结果,小于零即代表TCGA比SEER诊断年龄年轻的癌症类别。

2.性别

对于大多数癌症类型(22/27),观察到的TCGA病例的性别分布与SEER病例相似。 肺鳞状细胞癌(LUSC),皮肤皮肤黑色素瘤(SKCM)和甲状腺癌(THCA)的男性病例比例显着较高(74.0%vs. 62.4%,61.7%vs. 56.6%,26.8%vs.22.8% 在TCGA与SEER中,LIHC和SARC病例的女性病例过多(32.4%vs. 22.6%,54.4% vs.46.7%)。详见Fig 4。 

3.种族

与NAACCR病例相比,报告种族为其他(亚洲,美洲印第安人或阿拉斯加原住民)的个体在TCGA中的比例过高。 观察到的种族分布对于13/18种癌症类型是不成比例的(如图2a)。 在13种癌症中,8种(膀胱尿路上皮癌(BLCA),乳腺癌(BRCA),食管癌(ESCA),肝癌(LIHC),胰腺癌(PAAD),皮肤黑色素瘤(SKCM),胃腺癌(STAD)和甲状腺癌(THCA))在报告其他种族的个体中具有显着更高的百分比(校正残留≥2)。 

4.诊断时患病阶段

对于具有阶段信息的26种TCGA癌症类型,对于大多数癌症类型(25/26)观察到阶段差异的证据(图2b)。 具体而言,与SEER病例相比,16例癌症在TCGA队列中的I期比例显着较低,19例在II期中的比例显着较高,12例在III期中具有显着较高的比例,14例在IV期比例显著性较低。

Fig.2a TCGA与NACCR人种比例对比图 Fig.2b TCGA与SEER诊断时患病阶段对比图 

5.生存月份

使用12个月作为终点,TCGA中相对于SEER,有27/33癌症类型的病例,调整后的平均全因存活月数显著更长。对于剩余的六种癌症类型(宫颈癌(CESC),肾嫌色细胞癌(KICH),肾透明细胞癌(KIRC),卵巢癌(OV),睾丸生殖细胞肿瘤(TGCT)和UVM),未发现统计学上显着的差异(图3)。 值得注意的是,对于CHOL和SARC,TCGA病例在随访12个月后平均寿命超过SEER病例2个月(分别为2.35和2.47个月)。

Fig 3. TCGA与SEER平均生存时间(月份)的差别

图解: 此处的x轴是各项癌症的分类,而y轴并不是p值,就是两组数据均值的差值,另外在每条线段的上端和下端则代表均值差异的95%置信区间,之所以不写p值,是因为如果置信区间不包括0的情况下,即线段没有被x轴穿过的情况下,差异就是显著的,变相体现了P<0.05和p>0.05的情况。而且通过线段长短可以看出标准差的大小,标准差越大,准确性越低。所以该图是很直观的统计图,体现了置信区间情况,而非只体现显著性。

Fig 4. TCGA,SEER和NAACCR患者各项人口统计学和临床特征分布的差异汇总

图解:各列为相关特征比较的p值,回归系数,残差等。32个简称及对应癌症名称分别为:急性淋巴白血病(LAML),扩散大B细胞淋巴瘤(DLBC),胸腺瘤(THYM)。器官系统类有:妇科实体瘤:卵巢癌(OV),子宫内膜癌(UCEC),宫颈鳞状细胞癌和腺癌(CESC),乳腺癌(BRCA);泌尿类:膀胱尿路上皮癌(BLCA),前列腺腺癌(PRAD),睾丸生殖细胞肿瘤(TGCT),肾透明细胞癌(KIRC),肾嫌色细胞癌(KICH),肾乳头状细胞癌(KIRP);内皮素类:甲状腺癌(THCA)和肾上腺皮质癌(ACC);核心胃肠道:食管癌(ESCA),胃腺癌(STAD),结肠腺癌(COAD),直肠腺癌(READ);发展性胃肠道:肝细胞癌(LIHC),胰腺腺癌(PAAD),胆管癌(CHOL);头颈部:头颈部鳞状细胞癌(HNSC);胸部:肺腺癌(LUAD),肺鳞状细胞癌(LUSC),间皮瘤(MESO)。中枢神经系统类有:成胶质母细胞瘤(GBM),脑低级胶质瘤(LGG)。软组织类有:肉瘤(SARC),子宫癌肉瘤(UCS)。神经嵴起源组织类:嗜铬细胞瘤和副神经节瘤(PCPG)。此外还有皮肤黑色素瘤(SKCM)和葡萄膜黑素瘤(UVM)。

文章总结

文章通过对TGCA与SEER、NAACCR两大数据库作对比,证明了TCGA患病人群的种族、性别、诊断年龄、诊断时患病阶段等特征与两个数据库代表的一般患病人群在部分比较中有显著性差异。

然而本研究也有局限性,TCGA尚未公布针对每种癌症类型的特定诊断标准。而SEER的鉴定标准已经明确,可能TCGA对癌症类型诊断的标准和SEER会略有出入,造成比较困难。

总的来说,本研究表明TCGA的病例比一般患病人群更年轻,并且可以存活更长时间。因此本研究结果强调了将老年患者加入到癌症基因组计划的重要性,以增加研究结果和疗法对这些患者的适用性。

小编评论

对精准医学来说,需要尽可能的减少混淆因子,提高数据库的准确性,本研究提醒了以TCGA为数据库来进行癌症研究的研究者,TCGA的患病人群样本不一定能代表总体(一般人群),可能需要进行调整、修正或者作为偏差来讨论。

研究者因为SEER过度采样了美国少数人种,而在对比人种比例时使用了另一个数据库NACCR,这种做法虽然体现本研究的研究,但也把不同比较对象的结果和结论放在一起,难免会给人造成视觉和逻辑上的混淆。另外,也难免留下选择有利研究结果的嫌疑。

同时,令人思考另一点是,尽管该研究结论显示TCGA的患病人群特征均值和与一般患病人群有差异,但是SEER既然有过度采样现象,那么其他特征也会受影响,SEER并不能完全代表一般人群。作为采样来说,各种误差、偏差总是存在,只能尽量地去靠近真实值,然而真实值仍然总是难以得知,或许多用一些人群研究的数据库进行交叉比较,会显得更严谨。

当然,总的来看,本研究很有效地达到了其研究目的,让研究者在使用TCGA数据库或是其他大型疾病人群数据库,应对该数据库的各项人群特征与真实值的差异进行思考、验证和讨论。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多