分享

文献精读-TCGA数据挖掘生物信息文章(肺鳞癌)

 生物_医药_科研 2019-08-19

该文章是17年发表的与肺鳞癌相关的lncRNAs研究,影响因子3.026,文章虽然比较早,但是对我们依然有参考价值。

数据来源

作者从TCGA下载所有肺癌的RNA-Seq数据(截至2017.4.5),共502个
肺鳞癌样本数据,其中原发性肺鳞癌样本数据450个。提取这450个样本的lncRNAs数据进行后续分析。

筛选显著变化的lncRNAs

筛选在不同样本中表达普遍有变化的lncRNAs 5664个,对这些lncRNAs分别进行单因素生存分析,最后筛选出289个显著变化的lncRNAs,前20如下图所示:


预后关键lncRNAs鉴定

利用R语言中的rbsurv,对上述289个lncRNAs构建Robust likelihood-based生存模型,筛选出11个频率最高的lncRNAs作为预后特征lncRNAs


lncRNAs互作分析

在starbase2.0数据库中搜索与这11个lncRNAs相互作用的蛋白质,绘制LncRNAs-Protein互作网络。


多因素生存分析

采用多因素的COX回归模型对预后特征lncRNAs进行分析并绘制ROC曲线,发现他们都对预后具有显著的分类效果。


分类模型

对特征lncRNAs进行聚类分析并建立分类模型。


稳定性和有效性验证

随机抽取样本进行一千次重复单变量生存分析,计算各回归模型的统计稳定性。各回归模型的显著p值均小于0.01。

最后,作者又看了一下这七个模型在不同的TNM分期的样本中的分类效果


总结

作者从原发性肺癌样本数据中层层筛选出11个预后关键lncRNAs。它们的相互作用蛋白参与DNA修复和细胞增殖。对特征lncRNAs进行聚类分析并建立分类模型,最终选择了一个稳定性和真实性都很高的4-lncRNA模型。

参考文献:https://www./doi/full/10.1080/21691401.2017.1366334

想借鉴上述文章,对GEO和TCGA数据库进行自主挖掘吗?扫码下方二维码开始学习吧(扫码下拉找到医学课程专区)!8月31日前所有医学课程可以享受最低6折优惠(领券优惠购买)!

扫码下拉找到医学课程专区

延申阅读

GEO芯片数据下载 |GEO数据与WGCNA--挖掘胶质瘤共表达网络的关键模块与通路|GEO和TCGA套路文章解说 | 基因芯片表达差异分析 | GSEA法基因功能富集分析原理详解! | 挖别人的数据,发自己的文章 | TCGA-数据挖掘 | 转录因子研究方法! |GEO芯片数据挖掘(直肠癌)


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多