四招教你用好在线生信资源，附最全的免费数据库！

微笑如酒 2019-10-30

展开全文

众多生物信息分析资源的出现，给我们提供了便捷、高效的在线数据处理工具，省去了生物信息工具难以安装的过程，让众多科研工作者的数据查询、处理、分析和绘图更加方便。

但具体该如何好好利用这些在线的生物信息资源？这便是我们今天要分享的重点。

来源于百度图片

在线生物信息资源按照其资源类型，大致上可以分为查询类、数据类、分析类和综合类等。

查询类资源大致可以分为核苷酸序列数据库、RNA序列数据库、蛋白质序列数据库、结构数据库、基因组学数据库（非脊椎动物）、代谢和信号通路数据库、人类和其他脊椎动物基因组数据库、人类基因和疾病数据库、微阵列数据和其他基因表达数据库、蛋白质组学资源数据库、其他分子生物学数据库、细胞器数据库、植物数据库、免疫学数据库和细胞生物学数据库等；数据类资源比较集中，数量较少；分析类资源主要包含了序列分析、统计分析、功能分析、预后分析等。而综合类资源主要包含以上两个及两个以上分类的资源。

本文结尾处为大家提供了最全的常用在线生物信息资源，收藏之后，以后再也不需要苦苦寻找各种在线生物信息资源了！

为了更有效的使用在线生物信息资源，下面就按照常规实验思路展示部分使用频率较高的在线资源，为大家介绍各种在线生物信息资源。

数据来源

数据是生物信息分析的基础，没有数据，一切分析都是空谈。如果手头上没有现有的数据，在生物信息领域，是有很多可以用的资源的。其中最重要的数据库有：TCGA、 GEO、 SRA、ENA、ArrayEpress。

TCGA数据库对33种癌症、1万多个肿瘤病例的基因、表观遗传和蛋白质组学变化进行分析，确认约300种导致癌症的基因，并发现已经获批的疗法覆盖了超过半数肿瘤病例的基因突变；而GEO和ArrayExpress数据库存储了大量基因表达数据、蛋白丰度数据、表观检测数据等；SRA和ENA则是用于存储二代测序的原始数据数据库，其中ENA对保存的数据做了注释，界面相对于SRA更友好。总的来讲，TCGA是一个研究癌症的非常全面的数据库，如果研究的目标不是癌症，那么GEO、 SRA、ENA、 ArrayEpress等数据库就是最好的选择。

筛选基因

基因筛选是一项艰辛的工作，从上万个分子中筛选出目标分子需要做大量工作。

现有的筛选工具涵盖了基因组、转录组、蛋白组、代谢组、表现基因组、宏基因组和代谢组等多个组学领域，而这些筛选工具前期工作需要的计算量巨大，消耗资源极多，基本上找不到相关的在线分析资源，能够找到的主要集中在中后期的差异筛选、相关性分析，以及后期的功能筛选、分子网络筛选、疾病相关性分析、药物相关性筛选等等。

图片来源于Genematrix共表达分析工具

TCGA是癌症研究最好的数据库，与TCGA相关的cbioportal、 GEPIA和TCGA portal自然成为了研究癌症的不二选择，它们可以提供基因组、转录组、表观遗传、相关性分析、功能分析和生存分析等多层次结果。

常规的研究就需要从数据类资源中下载研究目标相关的数据，可以使用GeneMatrix分析平台进行差异分析，使用DAVID、GSEA、KEGG富集分析或者GO富集分析等工具进行功能富集，通过功能富集，共表达分析预测相互作用基因，筛选目标基因。

研究代谢物的全套分析工具MetaboAnalyst，研究疾病相关查询数据库有OMIM，研究药物相关数据库有DrugBank，中药分子与基因关系数据库 。

图片来源于MetaboAnalyst

证实功能

基因表达、翻译以及功能的验证是需要真实实验支持的一个关键步骤，大多需要自己亲自动手，在线的资源相对较少。其中proteinatlas提供全部24,000种人类蛋白质的组织和细胞分布信息，并可以免费提供公众查询。

图片来源于Reactome

寻找机制

分子机制是指生物机体结构组成部分的相互关系，从分子机制的角度解释疾病发生、发展等过程，并从中发展出相关的疾病风险预测、预防、诊断和治疗技术。

从生物信息角度来看，机制的寻找有两种方式：第一种是从现有的研究中搜索分子与分子、分子与疾病之间的关系，发现在不同疾病或者组织细胞中相同或者不同的分子机理；第二种是从现有的高通或者低通数据中，通过计算数据之间的关联，并推测可能存在的分子与分子、分子与疾病之间的关系。

图片来源于Reactome

当下，模式物种中分子机制的研究已经达到了一定高度，在已经有了很多相关的在线生物信息资源，比如：使用最多的KEGG信号通路、美观大方的Reactome ，以及单物种版信号通路数据WikiPathways等等。

除了使用现有的公共数据库可以进行查询外，还可以通过统计学计算的方法预测分子与分子、分子与疾病之间的关系，比如StringDB，它不仅包含现已发现的蛋白互作关系外，还提供了文本挖掘、共表达分析等方法获得分子相互作用。如果自己有现有的数据，也可以通过GeneMatrix 的共表达工具预测分子之间的相互作用关系。

GeneMatrix平台上还可以用很多SCI 级分析、绘图工具，Nature 、Science高端杂志配色一键完成，并可以输出高质量美图。研究中医的你们也是有福利了，中国药科大学开发了第一个专门为研究中药分子机制而设计的在线生物信息学分析工具BATMAN-TCM，直接可以检索中药以及靶向基因，是不是很厉害呢！

图片来源于Genematrix

图片来源于BATMAN-TCM

说了这么多，大家是不是等不及了呢，接下来的在线生物工具清单才是重点，各位看完后，千万别忘了收藏！！！

点击以下名称可直达↓↓↓

分类	名称	描述
综合	NCBI	美国国立生物技术信息中心，来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）交换数据建立起数据库
	DDBJ	日本DNA数据银行，收集DNA序列信息并赋予其数据存取号，信息来源主要是日本的研究机构，亦接受其他国家呈递的序列
	EBI	提供的服务包括建立/维护数据库、提供分子生物相关信息服务、执行分子生物与计算分子生物研究
	ENSEMBL	是用于检索基因组信息的几种众所周知的基因组浏览器之一
	UCSC	该站点包含有人类、小鼠和大鼠等多个物种的基因组草图，并提供一系列的网页分析工具
数据	GEO	由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。收录了世界各国研究机构提交的高通量基因表达数据，也就是说只要是目前已经发表的论文，论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到
	ArrayEpress	欧洲生物信息协会（EMBL-EBI）下属的功能基因组数据库，收集整理基于芯片和测序的基因组学实验的数据，以支持可重复的研究
	TCGA	TCGA由NCI牵头，提供36 种癌症类型的Gene expression, DNA methylation, Copy Number Variant, Mutation还有更深度的exon expression外显子测序结果等
	ENA	隶属EBI (European Bioinformatics Institute)，功能等同SRA，并且对保存的数据做了注释，界面相对于SRA更友好
	SRA	一个保存大规模平行测序原始数据以及比对信息和元数据 (metadata) 的数据库，所有已发表的文献中高通量测序数据基本都上传至此，方便其他研究者下载及再研究
分析	DAVID	整合了生物学数据和分析工具，为大规模的基因或蛋白列表（成百上千个基因ID或者蛋白ID列表）提供系统综合的生物功能注释信息，帮助用户从中提取生物学信息
	StringDB	一个很好的蛋白互作网络数据库，其不仅包含了直接物理作用的互作关系，还包含了蛋白之间以间接作用的互作关系。除了有实验证据支持的数据外，还有整合其他数据库中的互作数据以及利用生物信息学预测获得的互作数据
	Kmplot	首款生存曲线制作工具，主要涉及6个癌种
	GeneMatrix	一个服务医疗工作者的专业生物信息分析平台。具有多个生物信息分析应用模块，采用可视化交互界面，操作简易流畅，提供多种标准生物信息分析服务，个性化展示分析结果
	FGENESH	基因组基本的基因预测
	BLAST	NCBI开发的一款序列相似搜索程，常用在线的BLAST比对工具进行序列比对分析和引物设计
	ClustalW2	一款经典的多序列比对工具
	BLAT	“类BLAST比对工具”，速度快，共线性输出结果简单易读。适于比较小的序列（如cDNA等）对大基因组的比对
	GENSCAN	gene识别软件，主要是通过已知生物的基因结构特征来识别新的基因
	HMMgene	基于一种称为隐马尔可夫模型的脊椎动物和秀丽隐杆线虫基因的预测工具
	metaboanalyst	一款基于网络的定量代谢组数据综合分析平台。包括数据处理、数据标准化、统计分析和高级功能阐释，它能对多种类型的源数据进行分析
	promoterscan	根据转录因子结合部位在基因组中分布的不平衡性,将转录因子结合部位分布密度与TATA 盒的权重矩阵(weight matrix) 结合起来,从基因组DNA中识别出启动子区
	PROMOTER 2.0	用神经网络方法确定TATA 盒、CCAAT盒、加帽位点(cap site) 和GC 盒(GCbox) 的位置和距离, 识别含TATA 盒的启动子
	ORF finder	一个图形的序列分析工具，分析并找到序列的ORF区(开放读码框架)，这个工具使用标准的或其它特殊的遗传密码子列出所有可能的ORF区，并推导出氨基酸序列
	MUSCLE	一个比ClustalW2和T-Coffee更快更精准的多序列比对工具
	CLUSTALW2	一种渐进的多序列比对方法，先将多个序列两两比对构建距离矩阵，反应序列之间两两关系
	T-COFFEE	准确度高,速度慢的多序列比对
	blastkoala	在线KEGG比对注释方法
	GEPIA	一个使用标准处理管道分析来自TCGA和GTEx项目的9736个肿瘤和8587个正常样本的RNA测序表达数据的web服务器
	gsea	基于基因集的富集分析方法
	TCGAportal	极简TCGA分析平台，收录了28种癌症数据
	cbioportal	提供了TCGA研究分析癌症基因数据的可视化工具，帮助癌症组织和细胞学研究得到的分子学数据认识
	proteinatlas	提供全部24,000种人类蛋白质的组织和细胞分布信息，并免费提供公众查询
查询	OMIM	人类基因和遗传紊乱的数据库。主要着眼于遗传性的基因疾病，包括文本信息和相关参考信息、序列纪录、图谱和相关其他数据库
	Pfam	蛋白质家族的集合，每个蛋白质家族由多序列比对和隐马尔科夫模型描述文件表示
	miBase	一个可搜索的已发表miRNA序列和注释数据库
	TargetScan	一个专门分析哺乳动物miRNA靶基因的软件
	circbase	收集和整合已经发布的circRNA数据构建的数据库
	dbSNP	NCBI与人类基因组研究所合作建立的，收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据，以及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息
	BATMAN-TCM	第一个专门为研究中药分子机制而设计的在线生物信息学分析工具
	ConsensusPathDB	分子功能互作数据库，基于32个公共数据库，整合了人类蛋白质相互作用，遗传相互作用信号，代谢，基因调控和药物 - 靶标相互作用的信息
	GenBank	美国国家生物技术信息中心建立的DNA序列数据库
	Genome	基因组的信息，包括序列、图谱、染色体、组装和注释的数据库
	UniProt	信息最丰富、资源最广的蛋白质数据库。它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成
	ClinVar	开放的数据库，每个研究机构都可以向其提交数据，对于提交的信息，会有专家团队进行审核评级
	dbVar	实验分析中关于生物材料描述克隆数据库是一个集克隆和库信息的数据库
	PubMed	是医学,生命科学领域的数据库，旨在组织、分享科研领域信息
	Gene Ontology	是一个在生物信息学领域中广泛使用的本体，它涵盖生物学的三个方面：细胞组分、分子功能、生物过程
	ENCODE	在人类基因组中构建全面的功能元件清单，包括在蛋白质和RNA水平上起作用的元件，以及控制基因活跃的细胞和环境的调控元件
	COSMIC	收录了来自不同研究机构和数据库的体细胞突变数据，并提供了方便的浏览，检索，下载功能
	KEGG	从分子水平信息，尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源
	DrugBank	覆盖了19个物种的通路研究，包括经典的代谢通路、信号转导、基因转录调控、细胞凋亡与疾病
	reactome	覆盖了19个物种的通路研究，包括经典的代谢通路、信号转导、基因转录调控、细胞凋亡与疾病
	WikiPathways	一个由科学界维护并服务于科学界的生物路径数据库