分享

手把手教你用lncRNA预后模型发5分文章

 阿非ycfg 2019-08-15
随着生信文章爆发式的增长,高分文章越来越难发。不仅需要更高级的算法,还需要新颖的切入点,紧密的临床意义等(如何从生信角度布局一篇5分的SCI)。今天,我们继续来欣赏一篇5.5分生信文章,题目如下:

又是一篇signature的文章,不过文章重点不在是mRNA了,而是我们的科研热点lncRNA。

数据集的下载

5个GEO数据库非小细胞肺癌数据集下载和TCGA肺癌数据集的下载,其中四个GEO数据集用来做训练数据集,TCGA和另外一个GEO数据集做验证数据集。

注意点

这些GEO数据集几乎全部都是mRNA芯片数据,作者是怎么对应到lncRNA呢?这个便是文章的一个含蓄未透漏给大家的点,作者实际上是做了重注释,从而获得lncRNA的对应信息。

病人筛选

作者不是简简单单的直接将癌症和正常患者做差异,而是最开始做了病人筛选,作者认为老年人患者中这种疾病最需要关注,因此筛选出60岁以上的患者,纳入下一步研究,并进行差异分析。

预后相关的lncRNA识别

 作者首先对差异的lncRNA进行单变量cox分析,筛选出11个lncRNA,在进行多变量cox分析(adjusted by gender, pathological subtypes ,  smoking status  and  AJCC stage),最终识别出8个lncRNA。

构建预后模型

作者采用线性组合构建了预后相关模型,并进行了相关的生存分析,发现高风险的预后较差,低风险的预后好。最后的ROC接近0.7,其实还不算高哦

其它信息展示

从下图可以看出作者的绘图功底还是很厉害的,各个图都比较抢眼,这可能也是作者的文章一个发点(如果你也想自己绘图,可以在后台回复“R绘图”)。

模型验证

接着作者对模型进行验证,就拿TCGA和另外一个GEO数据集去验证模型的稳定性,结果发现在验证数据集中都有生存差异,这下就觉得文章有谱了。

多变量cox分析

为了证明这个signature是一个独立的预后因子,作者进行了常规的多变量cox分析如下:

分层分析

针对AJCC stage的不同阶段,作者在训练数据集和验证数据集中分别进行了生存分析,发现stage I阶段生存有差异,这也是作者的一个小发现。 

功能分析

作者利用TCGA数据集进行共表达分析,寻找这8个lncRNA的靶基因,筛选条件为(Pearson coefficient > 0.4,  P   < 0.01),接着采用metascape富集分析,关于metascape网站的操作,我们有专门的的帖子讲解:DAVID&Metascape:专注于基因功能注释和富集通路分析的网站Metascape:专门为生物学者设计的基因列表分析网站

OK,这个文章就结束了,这篇文章思路非常清晰,以lncRNA为切入点来构架预后模型,整个流程和我们之前做预后的流程几乎一样,最后大家是不是看的有点小激动?那就赶快去试一下吧!


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多