TCGA样本原数据(metadata)可以从https://portal.gdc. 下载。文件格式是JSON,因此需要一个解析文件的步骤,把JSON转化成便于阅读的表格。有很多工具可以做这件事情,我用的方法是R包httr中fromJSON函数,非常简单,推荐使用。 这里,通过一个例子,展示原数据(metadata)的组成(elements)。 { "diagnoses": [ { "days_to_death": null, "vital_status": "alive", "age_at_diagnosis": 24773, "primary_diagnosis": "c34.2" } ], "disease_type": "Lung Adenocarcinoma", "demographic": { "gender": "male", "race": "white", "ethnicity": "not hispanic or latino" }, "submitter_id": "TCGA-95-8494", "project": { "program": { "name": "TCGA" }, "project_id": "TCGA-LUAD" }, "case_id": "6ee9caec-65ac-46db-9426-ffaa31967ae2", "primary_site": "Lung", "summary": { "data_categories": [ { "file_count": 1, "data_category": "DNA Methylation" }, { "file_count": 5, "data_category": "Transcriptome Profiling" }, { "file_count": 1, "data_category": "Biospecimen" }, { "file_count": 16, "data_category": "Simple Nucleotide Variation" }, { "file_count": 1, "data_category": "Clinical" }, { "file_count": 4, "data_category": "Copy Number Variation" }, { "file_count": 4, "data_category": "Raw Sequencing Data" } ], "file_count": 32 } } 下面,JSON转换为表格的示例。同时,我们提供了完整内容的下载,链接可在末尾找到。 在TCGA中,主要有下面的数据类型: 1)转录组数据(Transcriptome) 2)甲基化数据(Methylation) 3)基因突变数据(Mutation) 4)拷贝数变化数据 (CNV) 对于TCGA的肿瘤,不是每一个样本都有上面四种数据。 下面给出了每种肿瘤中,含有这四种数据的样本数。 下载地址: TCGA样本注释信息完整版,http://pan.baidu.com/s/1i5P2PnR 关注“如何玩转生物大数据”微信公众号,及时获取更多内容 http://blog.sciencenet.cn/blog-3291578-1066017.html 上一篇:用于聚类验证的R包:clValid 下一篇:“如何玩转生物大数据”系列:奇怪的GBMLGG,COADREAD |
|
来自: 生物_医药_科研 > 《TCGA数据下载》