分享

【能力建设】肿瘤生物信息学常用数据库介绍

 曼珠沙华xeg38t 2023-05-10 发布于湖南

当我们进行肿瘤生物信息学相关的研究和学习时,丰富的公共数据资源是新人上手的最佳选择。肿瘤生物信息学相关公共数据库比较丰富,下面总结了部分近些年常见常用的公共数据库资源。

1 TCGA

TCGA(The Cancer Genome Atla) 网址:(https://www./ccg/research/genome-sequencing/tcga) TCGA是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和  National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,对 20,000 多种原发性癌症进行了分子表征,并与33种癌症类型的正常样本相匹配,超过了2.5个PB的数据,数据免费公开。

图片

2 GTEx

GTEx(Genotype-Tissue Expression) 网址:(https://www./home/) GTEx项目是用来研究人类不同组织的特异性基因表达和调节。GTEx包括来自于838位生前健康的人类捐献者的DNA数据;17382份RNA-seq数据,其来自于近1000个人类个体,涵盖54个不同组织器官部位;以及2个来自捐献者血液和皮肤的细胞系。GTEx可以有效弥补TCGA正常样本不多的缺点。该数据库可以用来评价不同组织特异性基因表达和调节;进行GWAS研究(genome-wide association study);还可以用来探索遗传变异对复杂疾病和特征的影响。

3 GDC

GDC(Genomic Data Commons) 网址:(https://portal.gdc./) GDC是美国National Cancer Institute(NCI)的研究计划,使命是为癌症研究界提供统一的数据存储库,以便在癌症基因组研究中共享数据,支持精准医学。TCGA、TARGET、CGCI和其他CCG计划提供了对几种人类癌症基因组变化的全面描述。但是,这些内容存在单独的存储库里,格式不同,还有不同的数据管理基础机构。而GDC就是NCI为了统一这些内容而建立的数据共享平台,支持从各种NCI计划获得的标准化基因组数据集的接收、质量控制、整合、存储和再分配。在GDC,你可以获得高质量的标准化生物样本、临床和分子数据,轻松进行高性能搜索,直接下载并分析临床信息、基因组特征数据,还可对肿瘤基因组数据进行高水平序列分析。

图片

GDC项目概览-数据来源(https://gdc./about-data/data-sources)

图片图片

4 GEPIA2

GEPIA2 (Gene Expression Profiling Interactive Analysis)网址:(http://gepia./) GEPIA2是GEPIA的更新版本,GEPIA2 是北京大学张泽民老师实验室开发的一个网站,能够对TCGA和GTEx项目共9736个肿瘤样本、8587个正常样本的RNA-seq表达数据进行分析。该平台提供了基因表达谱数据、差异表达基因分析、染色体位置、临床信息及资料基因的相关性等。用户可以通过搜索感兴趣的基因,探究其在癌症等疾病中的表达水平及进一步相关筛选出的关键基因,可以通过几种可视化方式来分析基因表达谱,并且可以进行更复杂的数据挖掘操作。使用GEPIA2可以进行的分析包括:基因表达谱分析、生存分析、多基因共表达分析、辨析基因的基因影响通道和GO富集分析等,除此之外,用户可以上传自己的数据与TCGA和GTEx上的数据进行对比。

图片

图片

5 GEO

GEO(Gene Expression Omnibus) 网址:(https://www.ncbi.nlm./geo/) GEO数据库是由美国国立生物技术信息中心(NCBI)提供的一个公共生物信息数据库,主要用于存储高通量生物实验数据,包括基因表达、序列、芯片、基因组、蛋白质等数据。目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到,GEO数据库除了从官网打开还可以直接从pubmed中直接进入。

图片

6 ArrayExpress

ArrayExpress 网址:(https://www./arrayexpress/) ArrayExpress与GEO数据库类似,里面主要包括Microarray(微阵列芯片)和High-throughput sequencing(高通量测序)数据,也包括甲基化、CHIP-seq和基因分型(genotyping)等数据。进行数据库挖掘时,ArrayExpress是一个不可或缺的数据库,比如如果你在在GEO数据库中搜索不到想要的结果时,可以在ArrayExpress数据库中搜索,它与GEO数据库互补,帮助完成数据的搜索和下载,方便后续的分析。

图片

7 cBioportal

cBioportal (https://www./) cBioPortal是一个集检索、下载、分析和可视化癌症基因组学数据于一身的数据库,其整合的基因组数据类型非常广泛,包括体细胞突变、DNA拷贝数改变(CNAs)、mRNA和microRNA(miRNA)表达、DNA甲基化、蛋白质丰度和磷酸蛋白丰度。由MSK开发,是基于TCGA数据库开发的一款集数据挖掘,数据整合及可视化等多功能与一体的综合性开放网络平台。

图片

8 OncoLnc

OncoLnc 基因生存分析数据库  网址:(http://www./) OncoLnc收集了TCGA中21种肿瘤,共8647个病人的生存数据,以及对应的mRNA/miRNA的表达谱数据。同时收集了来自MiTranscriptome项目lncRNA表达量数据,从而提供了包含mRNA,miRNA,lncRNA 3中基因的生存分析,可以方便的挖掘各种肿瘤中和生存相关的基因。

图片

9 NCDB

NCDB (National Cancer Database, NCDB)  网址:(https://www./quality-programs/cancer/ncdb) NCDB经美国国家认证,由美国外科医师学会和美国癌症学会联合组建,它是一个基于医院登记数据的临床肿瘤学数据库,来源于超过1500多个癌症委员会认证的机构。NCDB中包含了超过70万例已诊断为恶性肿瘤的患者数据,涵盖了包括肺癌、乳腺癌、结直肠癌等多个类型的癌症。通过这些数据,医疗专业人士和研究人员可以了解不同治疗方案的效果、各种癌症的发病率和预后等信息。此外,NCDB还支持用户进行自定义查询和数据分析,如筛选特定类型的癌症患者、分析不同治疗方式的效果等。

图片

10 Kaplan-Meier Plotter

Kaplan-Meier Plotter网址:(http:///analysis/) 该数据库是一个在线公共数据库,用于研究基因表达与生存分析的相关性。它提供了来自TCGA、GEO和E-MTAB等多个数据库的肿瘤RNA测序数据,并允许用户选择不同类型的癌症进行分析。该数据库会生成包括生存曲线、生存率、风险比等多种结果图表,帮助用户更好地理解和解释基因表达与患者生存之间的关系。除此之外,Kaplan-Meier Plotter还支持用户根据临床特征、癌症分期、治疗方式等多个维度筛选和聚类患者样本,并将其与基因表达数据进行关联分析。这些高级功能使得Kaplan-Meier Plotter成为了一个强大且易于使用的基因生存分析工具,被广泛应用于癌症研究和临床诊疗中。

图片

11 GeneCards

GeneCards 网址:(https://www./) GeneCards是一个在线的基因注释和信息检索系统,由以色列魏茨曼科学研究所开发。它提供了来自多个数据库和文献的信息,包括基因序列、表达谱、蛋白质结构、功能和相关疾病等。GeneCard的主要特点是它为每个基因提供了一个独特的注释卡片,其中包含了基因的详细信息和相关链接。用户可以通过输入基因名或ID来查找相应的注释卡片,并获取关于该基因的各种信息和数据。除此之外,GeneCard还提供了一些工具和资源,如基因家族分析、序列比较、通路分析等,帮助用户更好地理解和利用基因组信息。这些功能使得GeneCard成为了一个重要的基因注释和信息检索工具,被广泛应用于生命科学和医学研究中。

图片

12 HPA

HPA(Human Protein Atlas)  网址:(https://www./) HPA是基于蛋白组学、转录组学以及系统生物学数据,可以绘制组织、细胞、器官等图谱。它致力于全部24,000种编码人类蛋白质的基因在44个正常组织、18种肿瘤组织、69个细胞系和18种血液细胞的mRNA和蛋白质表达信息,而且还可以查阅肿瘤患者的生存曲线。

图片

13 HCA

HCA(Human cell atlas) 网址:(https://data./) HCA数据库是Human Cell Atlas项目的核心数据资源,旨在为人类细胞类型和组成的高分辨率图谱提供数据支持。目前,HCA数据库包含了来自不同器官、组织和细胞类型的单细胞RNA测序数据、蛋白质表达数据、免疫组化数据等多种信息。具体来说,HCA数据库中的单细胞RNA测序数据覆盖了大量的人类细胞类型,并提供了丰富的元数据信息,如细胞类型、发育状态、分化程度等。这些数据可以用于探索不同细胞类型的基因表达模式、功能及其在生理和病理状态下的变化。此外,HCA数据库还包含了蛋白质表达数据和免疫组化数据等,这些数据可以帮助用户更好地了解不同细胞类型的蛋白质表达和定位情况。同时,HCA数据库也提供了许多工具和资源,如数据查询、可视化、分析等,使得用户可以更全面地利用这些数据进行研究和分析。

图片

14 HCL

HCL(Human Cell Landscape)  网址:(https://db./HCL/index.html) 2020年3月25日,由浙江大学基础医学院郭国骥团队与浙江大学附属医院张丹团队、王伟林团队、陈江华团队、梁廷波团队和黄河团队等紧密合作完成的人类细胞图谱相关研究成果于《Nature》在线发表。HCL数据库包含来源于702,968个单细胞转录组数据鉴定的人体102种细胞大类和843种细胞亚类的可视化数据资源,同时scHCL单细胞比对系统可用于人体细胞类型的鉴定。

图片

15 CancerSEA

CancerSEA  网址:(http://biocc./CancerSEA/) CancerSEA是由哈尔滨医科大学的研究人员开发的一个用于破译癌症单细胞功能状态的数据库。提供癌症单细胞功能状态图谱,涉及来自14种癌症类型的41,900个癌症单细胞的25个功能状态。查询基因(包括PCG和lncRNA)或感兴趣的基因列表的功能状态与不同的癌症类型有关,在单细胞分辨率下提供与功能状态高度相关的PCG/lncRNA库。CancerSEA还提供了一些实用的工具和功能,如基因搜索引擎、表达谱可视化、基因互作网络等,使得用户能够更全面地理解和利用单细胞RNA测序数据进行癌症研究和诊疗。

图片

16 scRNASeqDB

scRNASeqDB  网址:(https://bioinfo./scrnaseqdb/) scRNASeqDB是一个在线的单细胞RNA测序数据库和分析平台,cRNASeqDB中包含了来自多个公共数据库和研究项目的单细胞RNA测序数据,如GEO、SRA、ENCODE等。同时,它也支持用户上传自己的单细胞RNA测序数据,并进行质量控制、预处理和分析。除了数据资源外,scRNASeqDB还提供了一些实用的生物信息学工具和资源,如差异表达分析、聚类分析、通路富集分析、基因调控网络分析等,帮助用户更好地分析和解释这些数据。此外,scRNASeqDB还支持用户可视化单细胞RNA测序数据和分析结果,使得用户能够更直观地理解和展示研究成果。

图片

17 SC2disease

SC2disease 网址:(http://www./sc2disease/) SC2disease是由西北工业大学、西安交通大学、哈尔滨工业大学、复旦大学和天津大学的研究团队共同开发的一个人工整理的人类疾病单细胞转录组数据库,旨在为不同疾病的不同细胞类型的基因表达谱提供全面准确的资源。SC2disease记录了946481个条目,对应341种细胞类型、29种组织和25种疾病。数据库中的每个条目都包含了不同细胞类型、组织和疾病相关健康状况之间差异表达基因的比较。用户可以通过SC2disease浏览感兴趣的基因的表达、搜索细胞型标志物、搜索多种疾病的生物标志物和比较疾病和非疾病状态下各类细胞的表达谱。

图片

18 ColorCells

ColorCells  网址:(https://rna./colorcells/index.php) ColorCells是由中山大学的研究团队开发,一个用于比较分析scRNA-Seq数据中lncRNAs和mRNA表达、分类和功能的数据库。研究人员还将ColorCells应用于6个物种的167913个公开的scRNA-Seq数据集,发现了一批细胞特异性lncRNAs。ColorCells是lncRNA表达分类和功能预测的综合资源。ColorCells提供了一系列新颖的工具和友好的可视化界面,包括应用PCA和t-SNE算法在2D和3D显示细胞簇;开发了一个tissue map工具来显示人类和小鼠的各种组织和细胞类型;建立了超几何分布的统计测试方法来自动分配细胞对细胞簇进行类型标记;基于SNN和pearson相关分析估计细胞间的相似性;构建共表达网络预测lncRNAs功能。

图片

19 PanglaoDB

PanglaoDB  网址:(https:///index.html) 这是2019年年初瑞典和美国的研究人员共同开发、发布的一个单细胞转录组数据库。包含了超过1000个单细胞实验的预处理和预计算分析,涵盖了大多数主要的单细胞平台和分析流程,基于来自各种组织和器官的超过400万个细胞。它包含了6000多个marker基因,可用于细胞分群注释的marker数据库,数据主要源于已经公开发表的单细胞转录组数据。PanglaoDB可以让用户查询和探索细胞类型、遗传途径和调控网络。它是由,致力于探索人类和小鼠的单细胞转录组数据,该数据库的优点是适合零基础的人使用、探索。

图片

20 CDCP

CDCP (Cell-omics Data Coordinate Platform)  网址:(https://db./cdcp/) CDCP是一个单细胞数据集成、共享、分析的综合平台。其主要功能包括用户可以在线获取CDCP收录数据集中样本的详细信息,并允许下载每个单细胞数据集的原始序列和表达矩阵;与UCSC单细胞浏览器和ASAP等其它平台不同,CDCP提供了一个共享和集成单细胞转录组学数据集平台,并允许用户上传数据,可以实时更;CDCP允许使用tSNE细胞降维图、不同细胞类型的聚类分析图以及显示不同细胞类型数量的直方图对每个单细胞数据集进行可视化,其中多个基因在不同细胞类型或簇中的表达模式可通过聚类图和小提琴图显示。此外,CDCP还提供一个用户友好的分析流程,通过提供单细胞表达矩阵,用户可以在线对感兴趣的细胞数据集进行重新分析,包括数据质控、注释高度可变基因、降维/聚类、分析用于表征群体特征的标记基因等。

图片

除去比较常用的数据库外,我们还可以用以下方法去查找一些TCGA在线数据库

  • 通过关键词在pubmed中搜索TCGA&database(加入与自己研究相关的词);
  • 通过一些已经发表的文章汇总整理;

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多