医学研究的目的就是研究疾病的致病机理,找到相关的biomarker,对疾病的预防,诊断和治疗进行指导。癌症做为一种重要的疾病,其致病机理非常的复杂,目前大量研究是从大规模的病例数据中找一些跟治疗,生存预后相关的biomarker。我们曾介绍了一个癌症相关的数据库TCGA,其中含有33多种癌症,11000多个病例,包含多组学数据和临床数据。今天就跟大家介绍一篇发表在Gynecologic Oncology(IF:4.95)上的挖掘TCGA数据的文章“A 15-long non-coding RNA signature to improve prognosis prediction of cervical squamous cell carcinoma”。 研究思路 该文章的研究目的是找到宫颈鳞癌生存相关的biomarker,构建生存分析相关模型,为疾病的治疗和预后进行指导。首先来看一下文章整个思路的流程图 整个的分析流程非常的清晰,是一个值得借鉴的研究思路,下面我们介绍一下基于这个分析流程的分析结果。 文章具体内容 从TCGA下载公开数据 lncRNA 表达量筛选 鉴定和筛选预后相关的lncRNA 单因素鲁棒性分析 多因素分析,构建风险值评估函数 采用ROC曲线优化最佳分类阀值,并在测试数据上验证模型针对风险函数,进行二分类,筛选出一个最优阀值,能将病例样本分成高,低风险两类。分类效果很好,AUC达到0.946。 在测试数据集上采用生存分析对风险模型进行验证,发现模型能显著的将样本进行很好的区分。 总结 总体来看,该篇文章思路清晰,结果可靠,操作性强,值得借鉴。目前公共数据库里类似的数据实在有太多了,下载公共数据库里的数据,采取类似的思路整理些SCI文章,其实并不是一个困难的事情!怎么样?您想发一篇类似的SCI论文吗?想的话,这里我给您推荐一门《TCGA-生存分析》的自学课程,该课程主要介绍利用公共数据库进行生存分析,内容覆盖上面文章的整个分析流程,讲解详尽,简单易学,欢迎一起学习! attachments-2018-07-XS84OKxz5b3f369b0cc1f.jpg 另外, 我们在网易云课堂上有不同的数据挖掘及文章套路讲解的视频教程,您可以点击以下链接进行观看: 链接:组学大讲堂--数据挖掘、文章套路视频教程 |
|
来自: Omicsclass > 《生物信息及软件技巧》