分享

构建生物网络实践TCGA肿瘤数据库下载(四)

 阿非ycfg 2017-07-28



1. 官网,http://cancergenome./。单击页面右侧的Launch data portal按钮。



2. 链接到TCGA数据库升级后的下载界面(Genomic Data Commons Data Portal)。



3. 点击project进入到各个肿瘤项目中。其中乳腺癌包含1098例病人的测序数据(DNA和RNA)和临床数据。



4. 如果只对RNA的表达数据感兴趣只需点击RNA-seq。



5. 跳转到这个界面,点击summary>光标移到Open点击。



6. 点击files共有3666个文件,每一个样本有三个类型表达文件。分别为FPKM.txt.gz,.FPKM-UQ.txt.gz,htseq.counts.gz。htseq.counts是 FPKM.txt的上游文件,htseq.counts可以通过不同的算法得到表达值,而其中FPKM是目前流行的算法之一。而FPKM-UQ.txt,编者认为是在计算read时是否只保留unique read。FPKM-UQ相对更加准确,但相对丢失了些数据。具体下载哪种类型数据,根据不同需求决定。



7. 回到summary,点击Add all fites to the cart。类似把需要下载的文件放入购物车一样。



8. 点击购物车,进入到以下界面。单击Manifest进行下载文件。



9. 专门的批量下载工具,官网https://gdc.nci./access-data/gdc-data-transfer-tool。下载与操作系统匹配的版本(支持Mac OS X、Windows 64bit、Linux 64bit)。



10. 最终需要三个文件。一是单击Manifes下载的gdc_manifest_20160724_081005(每次下载的文件名会不同),可以认为是种子文件。二是模版,放着执行的命令。三是运行的软件,但不是双击打开就能完全解决的。



11. 首先,打开模板,将刚下载的那个文件的名称“gdc_manifest_20160724_081005”复制并粘贴替换“模板”文件中标记的内容,并保存。



12. 然后双击gdc-client文件,打开文件后窗口又自动关闭,表示程序注册到电脑中。


13. 首先单击电脑“开始”,在搜索框中输入cmd并点击回车键。如下图所示,本文件夹所在的根目录在e盘,然后,英文输入法状态下输入e:。接着,回车后再输入cd空格,复制所在文件夹的路径(E:\TCGA)并右键粘贴至cd空格后面,点击回车键。最后,复制模板中内容并右键粘贴在E:\TCGA后面,点击回车,程序开始自动下载文件。



14. 下载中途断开或出现ERROR,再次输入上页的代码后可继续下载。如果下载好的解压出错,可能是下载时出现问题,只需将出错文件删除,并重新输入代码即可继续下载。



这期的内容讲到TCGA的批量下载,最终我们要将许多单个txt文件转变为还原文献” Identification of breast cancer candidate genes using gene co-expression and protein-protein interaction information ”中以下的矩阵形式,下期将继续讲解TCGA数据下载后处理的问题。

FS数据挖掘主编

赵忻艺,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。


科研路,不孤单!

Freescience医学科研联盟全国火热招募ing

50家高校及医院的小伙伴已经加入啦

具体点这里


FS科研软件库,集合50+医学科研必备神器,现在统统打包分享点这里



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多