分享

关于GO分析 2— Windows Live

 taoqibuyi 2011-03-01
 
9月15日

关于GO分析

 Gene Ontology
    
现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。

Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database (小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。

GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。

GO发展了具有三级结构的标准语言(ontologies),如表所示。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。
本体论 内容
分子功能本体论 基因产物个体的功能,如与碳水化合物结合或ATP水解酶活性等
生物学途径本体论 分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等
细胞组件本体论 亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等
基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持更为便捷。

本体论(The ontologies)
GO 的结构包括三个方面?D?D分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们可能在每一个方面都有多种性质。如细胞色素C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。下面,将进一步的分别说明GO的具体定义情况。
基因产物
基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物,也表明了它的功能。但是这之间其实是存在差别的?D?D一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。所以,在GO中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。
许多基因产物会形成复合物后执行功能。这些“基因复合物”有些非常简单(如血红蛋白由血红蛋白基因产物α-球蛋白、β-球蛋白和小分子的亚血红素组成),有些非常复杂(如核糖体)。现在,小分子的描述还没有包括在GO中。在未来,这个问题可望由和现在的Klotho和LIGAND等小分子数据库联合而解决。
分子功能
分子功能描述在分子生物学上的活性,如催化活性或结合活性。GO分子功能定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。
生物学途径
生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或α-配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等。因此,GO 并不涉及到通路中复杂的机制和所依赖的因素。
细胞组件
细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等)。
GO的形式
GO 定义的术语有着直接非循环式(directed acyclic graphs (DAGs)的特点,而并非是传统的等级制(hierarchy)定义方式(随着代数增加,下一级比上一级更为具体)。举个例子来说,生物学途径中有一个定义是己糖合成,它的上一级为己糖代谢和单糖合成。当某个基因被注解为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。因为在GO中,每个术语必须遵循“真途径“法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。
GO的注释(Annotation)
那么,GO中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用GO的定义方法,对它们所包含的基因产物进行注解,并且提供支持这种注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的GO术语。每个数据库都会给出这些基因产物和GO术语的联系数据库,并且也可以在GO的ftp站点上和WEB方式查询到。
并且,GO联合会提供了简化的本体论术语(GO slim),这样,可以在更高级的层面上研究基因组的功能。比如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。
GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。基因产物指一个基因编码的RNA或蛋白产物。因为一个基因可能编码多个具有很不相同性质的产物,所以GO推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。
一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。GO联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:一.所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果;二.注释必须提供支持这种基因产物和GO术语之间联系的证据。
GO文件格式
GO的所有数据都是免费获得的。GO数据有三种格式:flat(每日更新)、XML(每月更新)和MySQL(每月更新)。 这些数据格式都可以在GO ftp的站点上下载。XML 和 MySQL 文件是被储存于独立的GO数据库中。
如果需要找到与某一个GO术语相关的基因或基因产物,可以找到一个相应表格,搜寻到这种注解的编号,并且可以链接到与之对应的位于不同数据库的基因相关文件。
GO浏览器和修改器(browser and editor)
GO 术语和注释使用了多种不同的工具软件,它们都可以在web方式的“GO 浏览器”下“GO software page”中找到。大多数GO浏览器都是web模式的,允许你直观的看到术语和其相关信息,如定义、同义词和数据库参考等。有些GO浏览器如AmiGO和 QuickGO,可以看到每个术语的注释。而可下载的DAG-Edit编辑器,一样可以离线地显示注释和所有本体论定义的信息。对于每一个浏览器来说,都可以选择最适用于你要求的工具软件。
常见的三种浏览器
AmiGO from BDGP 在 AmiGO中,可以通过查询一个GO术语而得到所有具有这个注释的基因产物,或查询一个基因产物而得到它所有的注释关系。还可以浏览本体论,得到术语之间的关系和术语对应的基因产物数目。AmiGO直接连接GO下的MySQL。
MGI GO Browser MGI GO的功能类似于AmiGO,所不同的在于它所得到的基因为小鼠基因。MGI GO浏览器直接连接GO下的MGI数据库。
QuickGO at EBI QuickGO,整合在EBI下的InterPro中,可以通过查询一个GO术语而得到它的定义与关系描述、在SWISS-PROT中的定位、在酶分类学(EC)和转运分类学(TC)中的定位和InterPro中的定位等。
其他还有一些特殊的浏览GO的浏览器,其中括号中为建立机构和主要特色:
EP GO Browser(EBI,基因表达情况),、GoFish (Harvard,Boolean查询、GenNav(NLM, 图像化展示)、GeneOntology@RZPD (RZPD,UniGene)、ProToGO (Hebrew University,GO的亚图像化)、CGAP GO Browser (癌症基因组解剖工程,癌症)、GOBrowser (Illuminae,perl.、TAIR Keyword Browser (TAIR,拟南芥)、PANDORA (Hebrew University,非一致化蛋白)。
修改器
GO 术语和本体论结构可以由任何可以读入GO平板文件的文本修改器进行编辑,但是这需要对平板文件非常熟悉。因此,DAG-Edit是被推荐使用的,它是为 GO特别设计的,能够保证文件的句法正确。GO注释可以被多种数据库特异性的工具所编辑,如TIGR的Manatee和EBI的Talisman tool。但是GO数据库中写入新的注释是需要通过GO认证的管理员方可进行的,如果想提出新的注释或对本体论的建议,可以联系GO。
主要修改器为DAG-Edit和COBrA。DAG-Edit基于Java语言,提供了能浏览、查询、编辑具有DAG数据格式的GO数据界面。在 SourceForge可以免费下载,伴随着帮助文件。COBrA能够编辑和定位GO和OBO本体论。它一次显示两个本体论,因此可以在不同的水平相应定位。(如组织和细胞类型水平)优点在于可以综合几种本体论,支持的文件格式多,包括GO平板文件、GO RDF和OWL格式等。
如图为DAG-Edit的界面,可以分为四个部分:
1) 定义编辑面板(term editor panel)
显示当下的本体论。也是主要的编辑本体论结构的工具,可以通过点击和拖动术语来修改本体论的从属关系。
2) 文本编辑面板(text editor panel)
修改术语中的内容。在修改多个术语时,会出现一个选择菜单,可以选中后逐个修改。
3) DAG浏览器
DAG浏览器是一个插件,能够以图形的方式展示具有复杂的从属关系的术语。
4) 搜寻/屏蔽面板
可搜寻术语、术语类型和术语间关系。可自定义屏蔽条件,限制得出的搜寻结果。
GO数据库的查找和浏览FAQ
1. 如何搜寻注释?
使用AmiGO浏览器,可以在所有参与的数据库中搜寻一个特定的注解。AmiGO允许使用GO术语或基因产物的搜寻。搜寻结果包括GO对这个术语的等级分级情况,定义和近义结构,外部链接,所有相联系的基因产物和它的下一级术语。
2. 如何得到全部的GO注释?
在GO网站上,基因产物与GO联系的组信息都有提供。这些文件储存了基因/基因产物的ID和引用文献等支持证据(如FlyBase 基因ID, SWISS-PROT蛋白ID),在ftp站点上都可以获得。
3. 在一些模式生物中,一个基因通常有多个与之相关的核苷酸序列,如EST、蛋白序列等。要查询到这些序列,可以从该模式生物数据库中通过基因联系(gene association)查询到基因获得ID(gene accession ID),或是分别在Compugen中查询大的转录产物(transcipt)和SWISS-PROT/TrEMBL中查询蛋白。
4. 如何得到由GO术语注解的蛋白序列?
在GO网页上选择能查询到所有数据库的Amigo浏览器,键入GO术语(如“线粒体”),在结果中显示了被注释的基因。然后选择你所需基因,在网页的最低端把选项拖至“get fasta sequence”区域,再确定即可。
5. 如何能够找到所有和一个特定的GO术语相关的人类基因呢?
GO术语是和SWISS-PROT/TrEMBL/InterPro and Ensembl中的蛋白序列无赘余地对应的。这些注释在EBI上的GOA-Human 文件中,GO的FTP站点上,Ensembl,EMBL-Bank上都可找到。
6.可以直接使用GenBank的gi获取码在GO数据库中进行查询吗?
GO 数据库中除了Compugen所提供的GenBank获取码之外,没有包含其他GenBank获取码的信息,但是在EBI的GOA(GO Annotation)中,有一个综合的对GenBank/EMBL/DDBJ进行查询的方式,详细请见:ftp: //ftp.ebi.ac.uk/pub/databases/GO/goa/HUMAN/xrefs.goa.
GO与其他分类系统的定位关系(Mapping to GO)
GO 并不只是希望为基因组建立一个标准化的、结构清晰的注释语言。GO致力于各种基因组数据库的标准化。GO为各种基因组分类系统和GO注释之间的转化提供了转化表,见http://www./GO.indices.html
数据库 索引文件 来源
UniProt Knowledgebase spkw2go Evelyn Camon (Note: spkw2go used to be called swp2go, all files remain the same.)
Enzyme Commission ec2go Michael Ashburner
EGAD egad2go Michael Ashburner
GenProtEC genprotec2go Heather Butler and Michael Ashburner
TIGR role tigr2go Michael Ashburner
TIGR Families tigrfams2go TIGR Staff
InterPro interpro2go Nicola Mulder
MIPS Funcat mips2go Michael Ashburner and Midori Harris
MetaCyc Pathways metacyc2go Michael Ashburner and Midori Harris
MultiFun Classifications multifun2go Michael Ashburner, Jane Lomax and Margrethe Hauge Serres
Pfam Domains pfam2go Nicola Mulder
Prodom Domains prodom2go Nicola Mulder
Prints Domains prints2go Nicola Mulder
ProSite Domains prosite2go Nicola Mulder
Smart Domains smart2go Nicola Mulder
README
需要注意的是,这些转化不是完全而精确的。其中的一个原因可能是GO有一套完整的定义系统,而很多数据库并不具有。
GO的应用
GO的局限性
1. GO 不是基因序列或基因产物数据库,相反的,GO强调基因产物在细胞中的功能。
2. GO不是整合数据库的一种方式(如联邦式整合数据库),它并不能做到这点是因为:
a. 更新速度较慢
b. 由于每个人对数据定义的方式不同,标准难以达到一致。
c. GO并不对生物学的每个方面进行描述。如功能域的结构、3D结构、进化等。
3. GO 是对基因功能的注解,但是有其局限性。比如说,GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO虽然不涉及这些方面,但是支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)
用于基因组分析
基因组和全长 cDNA序列工程通常会根据序列的相似性,推测基因与已注释的基因功能类似。现在最常用的手段是在SWISS-PROT序列中设定一个相似性的域值,使用计算机化的方法来判断。因此,根据这一原理,也可以得到新的GO注释(被标记为“根据电子注释推测”)。一个GO的重要应用方面是对于一个GO术语,能形成一个相联系的基因产物组。举例来说,某一基因产物可以被精确地注释为在碳水化合物代谢的一个特定的功能,如葡萄糖代谢,而在总结碳水化合物代谢时,所有这些基因产物都会聚集到一起。GO计划为每一个高频出现的术语建立文档总汇,现在有些已经在“GO Slim”中实现了。
用于基因表达分析
如在芯片数据中引入GO注释,通常可以揭示出为什么一个特定组的基因拥有相似的表达模式。共表达的基因可能编码在同一个生物过程中出现的基因产物,或定位于同一个细胞部位的。如果未知基因和一些已被GO过程术语相似地注释了的基因共表达,那么这个未知基因很有可能在同一个过程中发挥功能。分析和操作基因表达芯片数据,并且又能结合GO注释的软件已产生。EBI 提供的Expression Profiler,和EP:GO都具有此功能。
GO可能的应用
GO的应用前景很广阔,不可能一一列出,现在已用到的包括:
1. 整合来自于不同生物的蛋白组信息。
2. 判定蛋白结构域的功能。
3. 找到在疾病/衰老中异常表达的基因的功能类似性。
4. 预测与一种疾病相关的基因
5. 分析在发育中同时表达的基因
6. 建立起自动的能从文献中获取基因功能信息的工具。
GO规模
如上所述,GO的三层结构是分子功能、生化途径和细胞组件。GO包含的大部分为平板格式文件(GO flat file),由每一种本体论中定义的文件为文本文件,而包含本体论和定义两种格式的是OBO格式的平板文件,XML作为可以用于三种本体论和所有定义的文件格式也有提供。这些文件都在每月的1日更新,GO每月将给出月份更新报告。
GO的使用和引用
GO 的使用
基因本体论联合会是由国家人类基因组研究所 (NHGRI) 的R1拨款所赞助,此外还有欧盟RTD项目“生活质量和生活资源管理”拨款。Gene OntologyTM 由AstraZeneca公司提供资金赞助,而SGD小组得到了IncyteGenomics的赞助。
GO数据库中的术语、注释等都属于公共范畴。GO的资源是免费的,但是必须在以下三种情况下使用:
1. 必需引用基因本体论联合会。
2. 所使用的GO文件必需标明GO的版本号和日期。(GO处于不断更新中)
3. GO文件的内容和内在的逻辑关系不得被更改。
引用GO
当使用GO资源时,请引用以下文献:
Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium (2000) Nature Genet. 25: 25-29.
当引用亚数据库资源时,请参考GO的 publication list 。
 
用于基因表达/芯片分析的工具

** Avadis - gene expression analysis with GO browser (商业软件) [http://avadis./]
Avadis是基因表达数据的数据分析和可视化工具,内置一个显示GO等层的浏览器,许多基因有共同的本体途径(common ontology paths),对基因表达聚类可以通过GO语义进行聚类以识别功能标识(functional signatures)

** BiNGO [http://www.psb./cbd/papers/BiNGO/]
开源的java工具,在一个基因集合里确定那个GO类别是统计上过表达(over-represented)的。BinGO以Cytoscape的插件实现,Cytoscape是分子相互作用网络数据整合和可视化的软件平台。BinGO映射给定基因集的主要功能主题到GO等级上,并输出这一映射为Cytoscape图。

** CLENCH:CLuster ENriCHment [http://www.personal./faculty/n/h/nhs109/Clench/]
CLENCH允许拟南芥(A. Thaliana)研究者从TAIR上执行自动的GO注释检索并计算给定的基因集(相对于参考集)的GO术语富集。在计算富集之前,CLENCH允许把返回的注释映射到GO slim术语表(能够被用户编辑)和本地安装的GO上的任何粗糙水平,

** DAVID:Database for Annotation, Visualization and Integrated Discovery [http://david.abcc./]
基于web的工具,提供由高通量技术产生的基因组水平数据集(诸如表达谱和蛋白组平台)的注释和分析的整合解决方案。分析结果和图形显示保留动态链接到主要的数据库和外部数据仓库,从深度和广度上覆盖数据。DAVID为数据收集到生物意义的转变提供便利,加速了基因组水平数据的分析。

** EASE [http://david.niaid./david/ease.htm]
EASE对于一个给定的基因列表概述主要的生物学主题。给定的基因列表来自于表达谱或其它的基因组水平实验,EASE能够快速计算相对于数据集里所有基因每一个统计上可能的过表达GO术语。

** eGOn v2.0:explore Gene Ontology [http://www./]
基于web的工具,映射表达谱数据到GO结构上。多个的输入文件能够同时分析以比较两个或多个实验的注释基因的分布。
eGOn V2.0的核心特性:
.可视化:基因注释以GO DAG可视化显示或以表格的形式显示,GO DAG的尺寸能够由用户自由定义。
.过滤:GO注释能够基于evidence codes进行过滤。
.包含用户定义的GO注释:事先加入到NMC注释数据库中。
.统计分析:多个基因列表能够同时分析以比较GO等级上注释基因的分布,统计测验设计成允许用户在两个基因列表之内或之间计算GO注释的不同(dissimilarities)。
.连接注释数据库:连接到NMC注释数据库,基因和蛋白的信息直接由GO DAG或导出的数据提供。
.导出:GO DAG信息、统计结果、基因和蛋白信息能够导出为Excel、text、XML格式。

** ermineJ [http://bioinformatics./ermineJ]
分析表达数据中的基因集(用户定义或通过GO术语定义)的工具。这个软件设计为给只有很少或没有信息学背景的生物学家使用。为想使用ermineJ脚本的用户提供一个命令行接口。实现了多个不同的对基因集的打分方法,不是简单地集中于依赖过分表达(over-representaion)方法上。

** FatiGO [http://www./]
FatiGO对给定的基因集,以代表性的功能信息(低表达或过表达GO术语)对其赋值。通过多重检验纠正(multiple-testing correction)得到统计显著性。FatiGO被设计成在DNA芯片数据分析的上下文里进行功能注释,FatiGO链接到基因表达模式分析套件(Gene Expression Pattern Analysis Suite)里。FatiGO使用主要的基因组和蛋白组数据库(GeneBank, UniProt, Unigene, Ensembl,etc)的基因IDs。FatiGO适用于任何类型的大规模实验进行功能注释。

** FIVA:Functional Information Viewer and Analyzer [http://bioinformatics.biol./standalone/fiva/]
FIVA协助原核生物社区的研究者进行转录组分析时快速识别相关生物过程。此软件分析大量基因的功能谱并对影响的生物过程产生一个综合的概述

** FuncAssociate [http://llama.med./cgi/func/funcassociate]
FuncAssociate是一个基于web的工具,接受一个基因列表作为输入,并返回输入列表中过表达或低表达(over- or under-represented)的GO属性。经过多重假设检验后只有那些统计上具有显著性的过表达或低表达的属性才会被报道。目前有10个物种被支持。除了输入基因列表外,用户还可以指定a)这一列表是否被认为是排序还是乱序的。b)FuncAssociate所认为的总基因(the universe of genes)。c)单独报道过表达或低表达的属性,还是两者都报道。d)p-value cutoff值。
新版的FuncAssociate(还处于测试阶段)支持更广泛的基因命名方案,并使用更为频繁更新的GO相关文件(GO associations),然而原来版本的一些特性诸如按LOD排序或查看基因属性表格的选项还没有实现。

** FuncExpression [http://www./funcexpression.php]
FuncExpression是一个基于web的资源,对大规模的基因组数据进行功能解析。FuncExpression能对植物、动物和真菌的基因列表(从基因组和蛋白组实验中产生)进行功能比较。多个的基因列表能够被分类、比较和可视化显示。FuncExpression支持双通道整合(two way-integration)植物功能信息和基因表达数据,这使得后续的交叉验证(cross-validation)成为可能,交叉验证使用BarleyBase相关实验获得的植物芯片数据。

** FunCluster:FunCluster, Functinal Profiling of Microarray Expression Data [http://corneliu./FunCluster.htm]
FunCluster是一个基因组数据分析工具,设计成对cDNA芯片实验产生的基因表达数据进行功能分析。除了自动对基因表达数据进行功能注释外,FunCluster通过特定设计的共棸类对涉及到的生物注释和基因表达数据进行功能分析,能够检测出共调控的生物过程(注释基因组主题所展示)。FuncCluster的功能分析依赖于GO和KEGG注释,并且只支持三个物种:人(Homo sapiens)、小鼠(Mus musculu)和酿酒酵母(Saccharomyces cerevisiae)。

** FunNet:Functional Analysis of Transcriptional Networks [http://www./]
FunNet设计为一个分析基因共表达网络(由芯片表达数据所构建)的整合工具,此工具的分析模块的实现涉及到两个抽像层:转录(如基因表达谱)和功能(如转录分析所显现的生物学主题)。依赖于GO和KEGG注释的功能分析技术,应用于从基因芯片表达数据中抽提一系列相关生物学主题。多重情况表达(multiple-instance representations)用来关联注释转录本和相关的生物学主题。一个原创(original)的非线性动态模型被用来量化相关基因组主题(genomic themes)上下文的接近度,这一量化基于在基因共表达网络(如在注释主题中捕获转录本的相似的表达谱)中基因组主题的增殖模型(patterns of propagation)。最后,一个非监督的多重情况光谱聚类过程(an unsupervised multiple-instance spectral clustering procedure)被用来探索共表达网络的模块结构,这是通过聚集共表达网络所显示出来的显著性相互关系的生物主题来实现的。提供了共表达网络的功能、转录表达、相关的转录和基因组主题的上下文详细信息。
FunNet提供了基于web的工具以及作为一个标准的R包。标准R实现能够运行在任何能运行R环境的操作系统(windows, Mac OS, 各种Linxu和Unix)上,能够从FunNet网站或者从CRAN的镜像站上下载到。两种实现的FunNet都是使用GPL2.0发布的。

** G-SESAME [http://bioinformatics./G-SESAME/]
G-SESAME包含了一系列工具,分别是:
1.衡量GO术语语义相似性的工具。
2.衡量基因功能相似性的工具。
3.基于GO术语注释信息聚类基因的工具。

** GARBAN [http://www./garban/home.php]
GARBAN是对cDNA芯片和蛋白质组技术产生的数据进行分析和快速功能注释的工具,GARBAN实现为生物信息学工具,以快速比较、分类和图形展示各种数据集(genes/ESTs或proteins),目的在于为病理和药学研究中识别分子标记(molecular markers)提供便利。GARBAN链接到主要的基因组和蛋白质组数据库(Ensembl, GeneBank, UniProt Knowledgebase, InterPro,etc.)并遵循GO委员会的标准进行语义分类。代码是共享的: e-mail garban@ceit.es

** GENECODIS [http://genecodis.dacya./]
GENECODIS是一个基于web的对基因列表进行功能分析的工具,它整合了不同的信息资源来搜索最频繁的共存在基因集的注释,并通过统计显著性排列它们。注释分析来自于不同的数据库如GO,KEGG或SwissProt。

** GeneMerge [http://www.oeb./hartl/lab/publications/GeneMerge/GeneMerge.html]
GeneMerge对于一个给定的基因集返回功能基因组信息,并提供此基因集里过表达的特定功能或分类的统计秩值(statistical rank scores)。展示了所有的GO类别和功能基因组数据。

** GFINDer: Genome Function INtegrated Discoverer [http://www.medinfopoli./GFINDer/]
GFINDer是一个多重数据库系统(multi-database system)提供了大规模的用户分类的序列标识列表和基因组生物学信息以及列表中不同基因类别的特征生物学功能谱。GFINDer自动从不同的资源检索更新功能分类的注释信息,识别用户分类的基因列表中每个分类的富集类别。并计算每一个类别的统计显著性。而且,GFINDer能够根据挖掘的功能类别对基因进行功能分类并且对这些分类进行统计分析,使得能够更好地解释芯片实验结果。

** GOALIE: Generalized Ontological Algorithmic Logical Invariants Extractor [http://bioinformatics./Projects/GOALIE/]
GOALIE是用来构建时间序列依赖富集的工具,需要ODBC连接到GO数据库。

** GOArray [http://ycmi.med./gomine]
GOArray是一个Perl程序,输入一系列基因注释为“感兴趣(of interest)”(GOI)或者不感兴趣,并确定相关的GO术语对于GOI是否过表达。一个置换检验(permutation test)是可选的,用来评估结果的可靠性。输出包括了多个可视化图和补充信息以及进一步的参考,还有对所使用的统计方法的概述。

** GOdist [http://basalganglia./links.htm]
GOdist是一个Matlab程序,用于分析Affymetrix芯片表达数据,实现了Kolmogorov-Smirnov(KS)连续统计方法。还引入一个两侧超几何分布(two-tailed hypergeometric distribution)使用Fisher exact检验实现了离散方法。GOdist能够检测出芯片基因相关的GO术语相对于不同总体的差别,总体可是是全局芯片总体、分析的GO术语的直接父节点或全局父节点。

** GOHyperGAll [http://faculty./~tgirke/Documents/R_BioCond/R_BioCondManual.html#go]
检验样本总体基因得到过表达的GO术语,R/BioC函数GOHyperGAll对所有的GO节点进行超几何分布检验计算并返回相应的P值,后续的过滤函数使用默认的或自定义的GO Slim类别执行GO Slim分析,使用此工具必须有基本的R和BioConductor知识。

** GoMiner and MatchMiner [http://discover.nci./gominer/htgm.jsp]
High-Throughput GoMiner是一个工业级别的整合GO工具,用于解析多芯片实验。GOMiner是基于Java的程序包,对感兴趣的基因(如芯片实验里上调或下调基因)在GO的上下文里进行生物学解析。GoMiner提供定量和统计的输出文件和两个有用的可视化文件:(i)树状结构类似于AmiGO浏览器里所显示的(ii)一个压缩的,动态交互的DAG。GoMiner所展示的基因链接到主要的公开生物信息学资源。一个陪伴工具(companion)MatchMiner用于做前处理,为GoMiner或其它的GO工具的输入获取基因名称,提供了一个自动化脚本以便于安装本地化的数据库。

** GOstat [http://gostat./]
GOstat是一个易于使用的web工具,用于确定基因列表中过表达或低表达的GO类别的统计显著性。数据每月更新。

** GoSurfer [http://biosun1./complab/gosurfer/]
GoSurfer在分析基因集(来自于基因组范围的计算、芯片分析或其它相应的高端方法)时使用GO信息,GoSurfer包含了严格的统计检验,交互的图形和自动更新注释信息(基因标识符(UniGene,LocusLink)或Affymetrix探针集)。

** GO Term Finder [http://search./dist/GO-TermFinder/]
GO Term Finder对给定基因列表的基因产物的GO术语或其父节点作显著性的分析。Saccharomyces Genome Database 实现了一个基于web的GO Term Finder用于为出芽酵母基因产物搜索注释。一个通用的GO Term Finder由Standford Microarray Database创建,可以从CPAN下载到。这个代码被普林斯顿基因组研究组(Princeton genomics group)用于创建基于web的通用GO Term Finder,通过该web工具提供了分析GO站点上所公开的有GO注释的任何种属(包括人)的基因。

** GOTM:Gene Ontology Tree Machine [http://bioinfo./gotm/]
GOTM是一个基于web的工具,基于GO等级结构分析和显示感兴趣的基因集。这个工具提供了用户友好的数据导航和可视化。产生可扩展的树用于浏览GO等级结构,以HTML的形式生成固定的树用于对不同注释水平进行归档并生成柱状图,GOTM提供统计分析以显示GO类别和相对富集的基因数目以及暗示(suggest)了进一步研究的生物领域。富集的GO类别能够以子树或DAGs的形式展示。基因的子集能够检索GO术语或进行关键字搜索。每一个基因的细节信息能够直接从GeneKeyDB里检索到。

** GOToolBox [http://gin./GOToolBox/]
GOToolBox是一系列基于web的程序,允许从一个基因集(相对于被检索的参考基因集)识别统计上过表达或低表达的术语、基因集里对功能相关的基因进行聚类和检索基因集里共享的注释。GO注释能够限制在GO slim等级上或者是给定的GO术语水平上,而且术语可以使用evidence codes进行过滤。GO和基因关联文件每月更新。

** L2L [http://depts./l2l/]
L2L是一个简单但功能强大的工具,用于发现芯片数据中隐藏的生物学显著性,通过易于使用的web界面,L2L挖掘GO术语显著富集的上调或下调的基因,L2L还将基因列表与数据库中上以千计的芯片实验作比较,以识别共有的基因调控模式。此工具可以下载到一个命令行的版本,可以自定义运行或者批量分析。

** Machaon Clustering and Validation Environment [https://www.cs./Nadia.Bolshakova/Machaon.html]
Machaon Clustering and Validation Environment是一个聚类验证的工具,将样本或基因按相似的基因表达模式进行分类并评估聚类的质量。在基因表达数据分析中GO术语用于衡量基因间的相似性(生物学距离)以支持生物医学知识发现(biomedical knowledge discovery)。

** MAPPFinder [http://www./MAPPFinder.html]
MAPPFinder是GenMAPP的辅助程序。这个程序允许用户检索任何存在的,相对于GO基因相关和GenMAPP芯片通路谱(MAPPs, microarray pathway profiles)的表达谱数据标准。分析产生的结果能够通过选择感兴趣的术语或MAPPs直接以GO等级或在GenMAPP中展示出来。

** Onto-Compare [http://vortex.cs./projects.htm#Onto-Compare]
Onto-Compare是一个基于web的工具,可以基于GO对商业芯片进行比较。Onto-Compare允许用户对每一个芯片做功能偏好性评估并确定对于某个特定生物学现象(由GO术语描述)最好的芯片。

** Onto-Design [http://vortex.cs./projects.htm#Onto-Design]
Onto-Design允许用户设计定制芯片,通过选择一系列UniGene cluster IDs,这些IDs代表了一个给定的生物过程子集(使用GO术语描述)。

** Onto-Express [http://vortex.cs./projects.htm#Onto-Express]
Onto-Express搜索公共数据库并返回一系列表格,包换相关表达谱、基因细胞发生定位(cytogenetic gene locations)、生物医学和分子功能、生物过程、细胞组分和翻译的蛋白的细胞功能。

** Onto-Miner [http://vortex.cs./projects.htm#Onto-Miner]
Onto-Miner允许用户通过clone ID, UniGene gene symbol, LocusLink ID, accession number等搜索不同的公开生物信息学数据库,允许使用基因列表进行批量检索。第三方开发者可以把这个站点作为资源,提供对于任意的基因列表的详细基因信息。

* Onto-Translate [http://vortex.cs./projects.htm#Onto-Translate]
Onto-Translate是基于web的工具,允许用户对下列ID进行快速转换:accessions IDs, Unigene cluster IDs 和Affymetrix probe IDs。Onto-Translate使用不同的数据库并降低任意基因列表的冗余,帮助识别相同的信息。

** OntoGate [http:///ontogate/]
OntoGate提供使用GO术语和与GO术语相关的外部数据库进入GenomeMatrix(GM)的入口,以找寻GM中不同物种的基因,这些基因能到映射到GO术语上。OntoGate包含了对相应注释基因的氨基酸序列进行BLAST搜索。

** Ontologizer [http://www./ch/medgen/ontologizer/]
Ontologizer能够对一组或多组基因或基因产物产生相应 的GO注释,并根据每一个聚类的使用频率进行排列,以HTML或XML格式显示。如果提供了总体的数据集,程序会对每一个GO术语执行过表达的统计分析。产生“Dot"(GraphViz)文件对过表达的GO术语提供图形化概述。提供了每一个基因的详细列表。

** Ontology Traverser [http://franklin.imgen.bcm./rho/services/index.jsp?page=OntologyTraverser]
Ontology Traverser是芯片基因列表富集工具,此工具为一些cDNA芯片和相对于芯片类型所使用的所有探针/克隆集列表提供了简单的上传格式,接收AffyIDs和NIAIDs。支持许多报告格式:flat html,flat tsv, xml和展示GO结构的动态可点击HTML。对每一个GO节点报告不同的统计/结果:列表fq, 芯片fq, fold change,? Fisher's exact test P值和基因的映射到的节点或子节点的标识。

** Probe Explorer [http://probeexplorer./]
Probe Explorer是一个开放使用的基于web的生物信息学程序,显示芯片寡核苷酸探针和在基因组上下文中的转录本的关联,此软件很灵活,可以简单地作为基因组和转录组的浏览器。提供了15种后生动物(metazoa)和两种酵母提供基因组实体(genomic entities)(位点, 外显子, 转录本)的序列和对等物包括矢量图输出。序列比对工具用来建立Affymetrix芯片探针序列和转录组(人,小鼠,大鼠和酵母)之间的关联。提供使用任何的DNA或蛋白序列进行关键字搜索、用户搜索和在基因组上进行比对。

** ProfCom: ProfCom, Profiling of Complex Functionality [http://webclu.bio.wzw./profcom/]
ProfCom是基于web的工具,用于对实验相关的基因列表进行功能解释。使得ProfCom成为独特工具的一个特征是除了GO术语外还可以使用复杂函数(complex function)进行富集分析。复杂函数由可用的GO术语的布尔组合构建。ProfCom对复杂函数作推断能够更加特异地比较单个的术语并更为准确地描述基因的功能。

** SeqExpress [http://www./]
SeqExpress是一个综合的分析和可视化软件包,用于基因表达实验。组合了特定开发的技术和通用的统计学方法,GO被用来对聚类的功能富集进行打分。这些结果能够在内嵌的浏览工具或通过通过网页进行浏览。SeqExpress还支持许多数据转换,投影(projection),可视化显示,文件输入/输出,搜索,与R整合,和聚类等选项。

** SerbGO [http://estbioinfo.stat./apli/serbgo/]
SerbGO是基于web的工具,帮助研究者确定那一个基因芯片分析工具、GO语义分析工具适合他们的项目。SerbGO是一个双向(bidirectional)程序。用户能通过检索表单索要感兴趣的工具的特性,用户还能比较每一个工具所实现的特性。

** SOURCE [http://source./]
SOURCE编辑来自多个公开访问的数据库(包括UniGene, dbEST, UniProt Knowledgebase, GeneMap99, RHdb, GeneCards和LocusLink)的信息,SOURCE使用的GO术语与LocusLink相关。

** Spotfire Gene Ontology Advantage Application (商业软件) [http://www./services/advantage.asp]
Spotfire Gene Ontology Advantage Application整合GO注释和基因表达分析。研究者在DecisionSite里可视化地选择一个子集的基因,软件展示了基因的GO等级分布。类似地,在GO等级里选择任何的过程、功能或细胞定位可以在DecisionSite里可视化地显示其相应的基因。

** STEM: Short Time-series Expression Miner [http://www.cs./~jernst/stem/]
STEM是一个Java程序,用于聚类、比较和可视化短时间序列的基因表达数据(少于或等于8个时间点)。STEM允许研究者识别显著性的时间表达谱和与这些表达谱相关的基因,并比较不同条件下这些基因的行为。STEM完整地整合了GO数据库,并支持对具有相同的时间表达谱的基因集做GO类别富集分析。STEM还支持对特定GO类别的基因行为进行简易的识别和可视化,识别在这些基因中那些时间表达谱被富集。

** T-Profiler [http://www./]
T-Profiler使用t检验对预定义的基因集的平均活性改变进行打分。基因集分别基于GO类别、ChIP-chip实验、上游与相应的转录因子结合模体匹配、在相同染色体上的定位进行定义。一个大折刀(jack-knife)过程使得计算比其它软件要更为稳健。T-Profiler使得对芯片数据进行解析以直观和严格统计成为可能,而不需要结合实验或者选择参数。

** THEA:Tools for High-throughput Experiments Analysis [http://thea./index-en.html]
THEA是一个整合的信息处理系统,用于分析后基因组数据。可以自动化进行数据(由通过选择的生物学信息包括GO进行分类)注释。用户可以对这些注释手动搜索和浏览,或根据统计标准(数据挖掘)产生有意义的概述

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多