分享

实例展示如何从TCGA筛选临床信息(附视频教程)

 微笑如酒 2019-03-26

相信很多做科研的同学刚步入科学殿堂的时候,都是从学习和模仿他人的研究开始的,Dr Li当年也是这样的。俗话说他山之石可以攻玉,这也是一种不错的学习方法。但是,有时候却很难重现原作者的结果,甚至连作者的实验设计都很难follow。

前几天有位参加我主讲的“数据挖掘在非编码RNA中的应用及实例展示专题班” 的学员follow了一篇宫颈癌的文章,Identification of differentially expressed miRNAs in early-stage cervical cancer with lymph nodemetastasis across The Cancer Genome Atlas datasets。对作者是如何从307个early-stage cervical cancer (CESC)病人中根据临床信息挑选出145个病人的过程有些疑惑。下面是原作者筛选样本的标准。

今天Dr Li就带大家来重现这个过程。

首先我们要从TCGA中下载CESC的临床信息,在TCGA中搜索CESC,选择TCGA-CESC。


选择miRNA样本,点击307这个超链接。


任意选择一个样本,点击进入。


选择clinical,点击10这个超链接。


点击nationwidechildrens.org_clinical_patient_cesc.txt进入


点击Download下载,里面就包含所有样本的临床信息


解压到当前文件夹


用excel打开nationwidechildrens.org_clinical_patient_cesc.txt


删除第一行和第三行


找到clinical_stage这一列进行筛选,根据作者原文方法部分的描述,只保留clinical stage为 stage IA2到IIA的样本。筛选完得到182个样本。

 

接下来找到pathologic_N,进行筛选。这里需要简单介绍一下TNM分析。N代表淋巴结。恶性肿瘤病人存在或不存在淋巴结转移,可能是单发转移也可能是多发转移。N0代表没有淋巴结转移,N1、N2、N3代表淋巴结转移的程度,不同肿瘤代表的程度不一样,数字越大代表淋巴结转移越多。经过stage筛选之后,这里的N只有N0和N1。那么N1就代表是淋巴结转移的样本,也就是原文中的lymph node metastasis(LNM+)。

这就和原文中的表1中的数字相同了。


接着我们检查一下相应的Tumor Grade样本数是否正确。由于满足上面筛选条件的样本的Tumor Grade只有G2,G3和NA这三种了。我们把G2的数目作为G1+G2的数目,正好是17个,跟表1中的样本数吻合。

我们把G3的数目作为G3+G4的数目。正好14个,跟表1中的样本数吻合。

 

而NA的个数为1,也与表1中的样本数吻合。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多