分享

免疫相关lncRNA思路讲解

 yjt2004us 2019-02-18

弥漫大B细胞淋巴瘤(DLBCL)是NHL中最常见的类型,几乎占所有病例的1/3。生物学和临床研究表明,DLBCL是一种具有侵袭的复杂疾病,具有广泛的临床、表型和分子异质性。目前的标准治疗是利妥昔单抗结合传统的R-CHOP化疗方法,虽然生存率可以达到50%~60%,但DLBCL的异质性使得不同的病人有着不同的临床效果。随着高通量技术的发展,基于基因表达模式的微阵列基因表达谱首先识别出了DLBCL两种主要的分子亚型:germinal center B-cell-like (GCB) and activated B-cell-like(ABC),且GCB患者的5年预后要明显优于ABC患者。越来越多的证据表明,不同的lncRNA表达模式可以用来区分癌症亚型,这表明lncRNAs具有成为潜在的癌症亚型生物标志物的潜力。在本研究中,作者的团队对lncRNA的表达谱进行了基因组范围的比较分析,并研究了GCB和ABC DLBCL之间lncRNA的差异表达模式。应用加权投票算法,他们确定了一组由17个lncRNA组成的能够高效区别GCB和ABC亚型的生物标志物。作者的团队另外用了两个独立的DLBCL数据集来验证这17个lncRNA的重复预测能力,并对lncRNA和mRNA进行了综合分析,推断了lncRNA生物标志物的功能作用。

病人样本数据

DLBCL患者的基因表达芯片数据和临床信息从GEO数据库下载,共使用了3组患者的Affymetrix 基因表达谱数据(HG-U133 Plus_2.0 平台的GSE31312、GSE10846和HGU133A 平台的GSE4475),在去除没有临床或亚型信息的患者后,共有905名DLBCL患者。

lncRNA表达谱的获取与分析

HG-U 133 Plus_2.0和HG-U133A的探针注释序列是从Affymetrix网站(http://www./estore/)获得的,然后,将探针序列重新映射到人类基因组(GRCh38)中,并用SeqMap工具从GENCODE(release 21)中获得lncRNA基因。唯一匹配到人类基因组的探针和没有错配的lncRNA基因被保留下来以供进一步分析。最后,获得3215个(包含2330个HG-U133 Plus_2.0中的lncRNAs)和855个(包括663个HG-U133A中的lncRNAs)  lncRNA特异性探针,对于具有多个探针的lncRNAs,用多探针的平均值生成lncRNAs的表达值。

LncRNA表达谱亚型分类及预后预测的统计分析

无配对双侧Student’s t-test得到的p-value <0.01并且Benjamini和 Hochberg多重检验矫正得到的FDR< 0.15的lncRNAs被定义为在ABC和GCB两种亚型中差异表达的lncRNAs.

基于lncRNA的分子特征的公式化

作者基于一组有相关信息的lncRNAs的加权投票,利用加权投票算法开发了一个有监督的亚型预测分类器。加权票数被定义为WLVL,其中WL是衡量一个lncRNA与亚型分类相关性程度的加权因子,

,VL代表样本中该lncRNA的表达水平与亚型均值之间决策边界的绝对偏差,计算方法为。最后,对于一个给定的测试样本,每个亚型的信lncRNAs的加权票数进行相加形成最终总票数VABC和VGCB,并将该样本分类到最终总票数较高的亚型。

临床分子亚型和预后相关的lncRNA生物标志物的识别

为了获得一组亚型分类和预后预测的最优lncRNA生物标记物,作者采用5倍交叉验证策略和100次随机,利用不同数目的差异表达的lncRNAs构建了有监督的亚型预测分类器。用某一特定数目的lncRNAs(取值为1—156)进行的100次随机分类中被错误分类的患者平均人数为:

。选择分类准确率和数量达到平衡的IncRNAs数作为最佳数目k,选择信噪比中排在前k个的lncRNAs作为分类特征。

生存分析

用Kaplan-Meier曲线来表现预测出的各亚型患者间的总生存期和无恶化生存期存在的差异,并进行对数秩检验。采用单因素和多因素Cox回归分析,评价各数据集中以IncRNA为基础的分子特征与生存期的关系,然后采用Cox比例风险回归模型计算风险比(HR)和95%置信区间(CI),所有这些统计分析都是基于R完成的。最后,作者在DAVID中进行了GO_BP和KEGG功能富集分析(FDR <0.05)。

结果

最终,作者的团队识别出了156个在DLBCL的两种亚型ABC和GCB中差异表达的lncRNAs,56个在ABC亚型中上调,100个在GCB中上调。根据折线图1.A,他们发现当lncRNA的组合数大于17后,分类准确性变化不大,因此他们选择了信噪比中前17个lncRNAs作为分类特征(Table 2);用这17个lncRNAs对213个样本进行聚类,发现能够很好的将两种亚型分开(图1.B);17个lncRNAs中,有6个在ABC中上调,11个下调(图1.C)。

在对数据集(GSE31312)进行分类时,这17个lncRNAs组成的分子特征(SubSigLnc-17)表现良好(AUC达到0.974,特异性为89.6%,灵敏度为92.5%);此外,Kaplan-Meier对总生存期和无恶化生存期的分析表明,SubSigLnc-17预测的两个亚型之间存在显著差异,GCB预测组患者的5年总生存率为66.8%,而ABC预测组的5年生存率为52.5%,表明subSiglnc-17不仅与分子亚型有关,而且与预后密切相关。(图2)

为了进一步检验SubSigLnc-17的鲁棒性,作者又使用了两个完全独立的无重叠的DLBCL数据集(GSE10846和GSE4475)。对两个数据集分类所得的AUC值均大于0.9,且预测的GCB组的5年总生存率和无恶化生存率优于ABC组,与实际相符合。(图4)

接下来,作者利用多变量Cox回归分析检验了SubSigLnc-17作为分类特征是否独立于其他临床因素:年龄(60vs.<60),性别(男性vs.女性),疾病分期(III/IV vs.I/II),乳酸盐脱氢酶(LDH)水平(高vs.正常),结外点数(≥ 2 vs.<2)和ECGO的表现状况(≥2 vs. < 2)。结果表明尽管其他五个临床因素与病人的总生存期有关,但在调整其他临床变量后,SubSigLnc-17在患者不同状态下的预后中具有一致性。表明subSiglnc-17是一个重要的独立的预后预测指标,可以提供比常规临床因素更多的预后价值。GO和KEGG功能富集分析的结果表明,这17个IncRNAs显著富集到了免疫和细胞周期相关的生物学过程(图6)。

总的来说,作者对GCB 和 ABC DLBCL两种亚型间的lncRNA表达模式进行了全面的比较分析,识别出了几个新的lncRNAs作为DLBCL亚型分类和预后预测的生物标志物。作者对数据的整套分析流程较为标准而且简单,看完之后不知你是否有所收获呢?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多