前面给大家介绍了新版的TCGA数据库,通过文字和视频给大家讲解了如何从TCGA数据库下载RNAseq数据和miRNAseq数据 以及如何合并成矩阵 ☞ 【视频讲解】R代码合并新版TCGA中RNAseq表达谱矩阵 ☞ 【视频讲解】R代码合并新版TCGA中miRNA表达谱矩阵 我们经常会在SCI文章里面看到下面这样的图来,展示体细胞突变(somatic mutation)的数据。 这个图叫瀑布图,展示每一样本中的各种类型的突变,包括错义突变,移码突变,无义突变,插入缺失等等。要想画出这张图,首先我们必须要准本好数据。今天小编就来跟大家聊聊怎么从TCGA数据库下载体细胞突变(somatic mutation)数据。 1.打开TCGA网站,输入需要下载的肿瘤类型 2.点击WXS后面的数字51 3.点击左上角File 4.选择WXS,Masked Somatic Mutation,maf,simple nucleotide variation,Aliquot Ensemble Somatic Variant Merging and masking,然后Add all files to cart 5.这51个文件就加入右上角的购物车里面了 6.下载sample sheet和Download下拉框里里面的Cart 得到两个文件 gdc_download_20220418_080408.481174.tar.gz和gdc_sample_sheet.2022-04-18.tsv 7.新建一个文件夹,名叫TCGA_CHOL_maf 在TCGA_CHOL_maf下面再建一个文件夹叫maf 将gdc_sample_sheet.2022-04-18.tsv拷贝到TCGA_CHOL_maf中,重命名为maf_sample_sheet.tsv。 将gdc_download_20220418_080408.481174.tar.gz拷贝到maf中解压 TCGA_CHOL_maf文件夹结果如下 TCGA_CHOL_maf/maf文件夹结构如下 那么到这里,我们就下载好了胆管癌的体细胞突变的数据了。下一期内容,我们将使用R代码将这些数据合并成一个矩阵,为绘制瀑布图做准备。 为了方便大家交流学习,共同进步,我特地创建了微信交流群 |
|