生物信息学在蛋白质组学中的应用

MitchellHe 2017-08-12

展开全文

摘要：生物信息学是一门新兴的边缘学科，基因组合蛋白质组研究与生物信息学技术互相推动，并行发展，而生物信息学在蛋白质研究中将发挥特殊作用。本文就生物信息学技术在蛋白质数据库以及蛋白质结构分析与功能预测中的应用做一综述。

关键词：生物信息学蛋白质组数据库结构分析功能预测

1 前言

20 世纪80年代，随着基因组学和蛋白质组学的发展，数据量迅速增加，生物信息学(bioinformatics) 就应运而生。它研究的重点内容为基因组(Genomics) 和蛋白质组学(Proteomics)。其在基因组学中的应用已经相当成熟，各种数据库已经被人们广泛的使用。而今,随着功能基因组学的信息量不断的增加,生物信息学在蛋白质组学中的应用也显得越来越重要。^{[1] [2]}

2 生物信息学在蛋白质组学中的应用^[4]

2.1 蛋白质组学的产生及其重要意义

在20世纪中后期，随着DNA双螺旋结构的提出和蛋白质空间结构的解析，生生命科学的研究进入了分子生物学时代，而遗传信息载体DNA和生命功能的体现者蛋白质的研究，成为了其主要内容。90年代初期启动的庞大的人类基因组计划，已经取得巨大的成就，人类基因组序列草图绘制完成后，生命科学研究跨入了后基因组时代。然而，人们清醒地识到基因仅是遗传信息的载体，而生命活动的执行者是基因的表达产物—蛋白质，它是生命现象复杂性和多变性的直接体现者。《自然》和《科学》杂志在2001年2月公布人类基因组草图的同时，分别发表了“And now for the proteome”和“Proteomics in genomeland”的评述和展望，将蛋白质组学的地位提到前所未有的高度，认为蛋白质组学将成为新世纪最大战略资源—人类基因争夺战的战略制高点之一，从此蛋白质组学的研究受到了广泛的关注。

蛋白质组一词是澳大利亚学者马克威尔金斯在1994年最先提出来的，它是指基因组表达的所有相应的蛋白质，也可以说是指细胞或组织或机体全部蛋白质的存在及其活动方式。蛋白质组学是从整体的蛋白质水平上,在一个更加深入、更加贴近生命本质的层次上去探讨和发现生命活动的规律和重要生理、病理现象的本质等。蛋白质组学的研究对揭示生命活动规律，探讨重大疾病机制，疾病诊断和防治、新药的开发提供重要的理论基础。^[3]

2.2 生物信息学在蛋白质组学中的蛋白质数据库的应用^[5]

2.2.1 蛋白质组数据库

蛋白质组数据库是蛋白质组学研究的主要内容之一。通过构建不同环境条件下组织或细胞全部蛋白质的数据库来研究蛋白质表达的差异情况。与其他数据库相比, 目前大部分蛋白质组数据库都有以下几个方面的特点: （1）由于蛋白质相关数据的种类繁多,蛋白质组数据库的种类也多种多样,如双向电泳数据库、基于蛋白序列的数据库、蛋白质一级或高级结构数据库、蛋白质相互作用数据库等等;（2）新速度快,网络上的蛋白质组数据库的数据几乎每天都在更新;（3）网共享程度高, 越来越多的数据库资源与互联网相互配合,使得蛋白质相关数据的利用率空前的提高。蛋白质组数据库的主要内容即集中在基于双向电泳结果的数据库和基于蛋白质序列信息的数据库。

2.2.1.1基于双向电泳图谱的数据库

双向电泳技术是蛋白质组学研究中最重要的实验技术之一，所以基于双向电泳图片的数据库也成了蛋白质组学研究中主要内容。这些数据库有以下几个特点: ( 1)据直观。以蛋白质双向电泳图片为索引，将图片放在互联网上，每一个蛋白点的信息(等电点、分子量等等) 都可以通过点击图片上相应位置的蛋白点得到; （2）双向电泳图片为基础，并与其他数据(蛋白质序列、结构和功能等信息) 进行整合。目前，主要有水稻蛋白质组数据库( The Rice ProteomeDatabase)、SWISS- 2DPAGE、大肠杆菌双向电泳数据库(ECO- 2DBASE)、酵母蛋白质组数据库(YPD)、造血干细胞蛋白质组数据库( HSC - 2DPAGE)、SIENA - 2DPA – GE、PHCI- 2DPAGE等等。

如水稻蛋白质组数据库The Rice Proteome Database ( http:// gene64.dna.affrc.go.jp/PD/) :水稻基因组测序完成之后,关于水稻蛋白质组的数据库也随之建立了起来。从双向电泳实验中分离鉴定出水稻组织或细胞器中的蛋白质，经分析后获得关于这些蛋白质的各种信息，对这些数据进行总结整合之后，水稻蛋白质组学数据库逐渐建立了起来，可供研究人员通过网络方便使用。这个数据库可以从以下四个方面为研究人员提供服务：务:（1）在数据库的 2- D 参考胶上选择相应的蛋白点，获得该蛋白点的各种信息;（2）输入与蛋白相关的关键词(蛋白质名字、序列号)查询蛋白相关信息; （3）根据蛋白质的分子量和 pI值来查询该蛋白的相关信息; （4）由蛋白质的氨基酸序列查询某类相似蛋白质的信息。这个蛋白质组数据库与其他的数据库相比有三点特殊性:（1）数据库中的 2- D 参照胶里包含了某个组织或细胞里几乎所有的蛋白质,每一个蛋白点的位置都在图片上展示了出来,信息量大且直观; （2）每一个蛋白点的信息都可以在链接的一个网页上找到,包括分子量、等电点、表达水平和氨基酸序列等等; ( 3)MASCOT搜索页会提供有关蛋白的质谱检测结果。

2.2.1.2 基于蛋白质序列信息的数据库

基于蛋白质序列信息的数据库是生物信息学数据库中最基本的数据库，这些数据库以氨基酸残基顺序为基本内容，并附有注释信息（计算机的序列分析结果和生物学家查阅文献的结果）。基于蛋白质序列的数据库很多，主要有蛋白质信息资源数据库（PIR）、SWISS - PROT 数据库、蛋白质序列数据库 NRL - 3D和 TrEMBL等等。

比如蛋白质信息资源数据库（PIR）；蛋白质信息资源数据库( http://pir. georgetown. edu/ ) 由佐治堂大学创立, 收集的序列用来研究蛋白质在进化中的关系。该数据库建立较早(雏形可追溯到20世纪60年代)，内容非常全面。数据库现在已经和其它 3 个数据中心建立了国际联盟:美国华盛顿的乔治城大学全国生物医学研究基金会( NBRF)、慕尼黑蛋白质序列信息中心(MIPS) 和日本国际蛋白质信息数据库( JIPD)。这 3 个中心共同制作和发布一个“野生型( wild- type)”蛋白质序列数据库。这是一个国际蛋白质序列数据库,它包含所有序列已知的自然界中野生型蛋白质的信息。PIR 数据库按数据的性质分为四个部分:

PIR1 中的序列已经经过验证, 注释十分详尽; PIR2 中大部分序列已经经过验证,但还含有尚未确定的冗余序列; PIR3中的序列还没有经过检验,注释也还没有加入;PIR4 中的信息都由其他渠道获得,没有经过验证也没有加入注释。

2.2.1.3 其他蛋白质组数据库

蛋白质生物信息学包含很多方面的内容：如蛋白质大分子的结构、相互作用等等，所以，除了上述的一些数据库之外，还有很多关于构象、相互作用等方面的数据库，如（1）PDB( Protein Data Bank,蛋白质三维结构坐标库www. pdb. bnl.gov) ,即美国国家实验室( Brookhaven National Laboratory, BNL)蛋白结构数据库。（2）Predictome( http://visant./) 蛋白质功能预测数据库,为 44 个基因组和蛋白之间的功能联系提供预测；（3）PROSITE( http:// cn. expasy.org/prosite/) 蛋白质家族和功能域数据库, 包含大量具有生物学意义的位点、模型等信息；（4）MSDB，由伦敦皇家学院( Imperial College Lon-

don) Hammersmith 分校的蛋白质组学系负责维护，是基于质谱应用的数据库，属于混合数据库。

将生物信息学的实验思路引入蛋白质组学的实验方案后，实验人员可以通过互联网上的信息设计实验方案，避免了很多重复性的劳动，少走很多弯路，为蛋白质组学的发展提供了可靠的信息资源。值得一提的是，上文提到的大多数数据库都能实现数据接收、在线查询和空间结构的可是化浏览等多种功能。而且，几乎所有这些数据库都是免费的，都可以免费下载或提供免费服务，使得蛋白质组学可以在生物信息学的辅助之下快速发展。^[6]

2.2.2 生物信息学与蛋白质分析^[7]

在蛋白质组分析过程中，生物信息学的作用不仅仅体现在数据库的查阅和资料的整合中，生物信息学软件在蛋白质组研究领域的作用根式至关重要的。蛋白质分析软件应用主要集中在结合蛋白质组研究中的分离技术和坚定技术识别蛋白质（如2-DE）图像分析、Edman降解的序列组合、质谱数据的综合分析等），对有价值的未知蛋白质进行分析和预测（包括序列分析、结构预测、结构域、电点等性质的检测等）、针对蛋白质的分析预测方法应用的工具有4个方面。

2.2.2.1 蛋白质一级结构分析

根据20中氨基酸的理化性质可以分析电泳等实验中的未知蛋白质，同样也可以分析已知蛋白质的物化性质。ExPASy(ExPASy是由Swiss2Prot；TrEMBL ;EMBL 等多个数据库的集合,主要专注的领域是蛋白质分子和蛋白质组学。) 工具包中提供了一系列相应程序, ①AACompIdent。它与把氨基酸序列在 SWISS-PROT库中搜索不同,AACompIdent 利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白。这个程序需要的信息比较多，包括有氨基酸组成、蛋白质的名称、pI和Mw(如果已知)以及它们的估算误差、所属物种、标准蛋白的氨基酸组成、标准蛋白的SWISS-PROT编号等,用户还需要在6种氨基酸“组合”中作出选择。然后在SWISS-PROT或TrEM2BL 数据库中搜索组成相似蛋白。②AACompSim。与前者类似,是 AACompIdent 的一个变种。但比较多在SWISS-PROT中进行。也可以用于发现蛋白质之间较弱的相似关系。③PROPSEARCH。不属于ExPASy 工具包,是蛋白质氨基酸序列同源性的检索,提供免费的查询,并通过电子邮件的形式反馈给提问者的网页。设计 PROPSEARCH的目的是为了通过排比方法查询一个新的蛋白质序列失败时,查找公认的蛋白质家族而设计的。PROPSEARCH可以通过氨基酸组分来查询,同时也可以通过其他的特性来进行查询,如从序列中计算所得的分子量、挑选的二肽组分的含量等。

2.2.2.2 蛋白质的物理性质预测

从蛋白质序列出发，预测蛋白质的许多物理性质，包括等电点、分子量、酶切特性、疏水性、电荷分布等。相关工具有：①Compute pI/MW(等电点和分子量工具)。是ExPASy工具包中的程序,对PI的确定是基于早起研究中将蛋白质从中性到酸性变性条件下迁移过程所获的PK值。但对于碱性蛋白质有局限，计算出的等电点可能不准确。分子量的计算是把序列中的每个氨基酸的同位素的品军分子量加在一起，再加一个水分子的分子量。②PeptideMass (酶切特性工具)。是ExPASy工具包中的程序,主要针对肽段图谱的分析试验,分析蛋白质在各种蛋白

酶和化学试剂处理后的内切产物。可预测水解结果的酶和试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN 和GluC(双羧酯或磷酸酯)等。半胱氨酸和甲硫氨酸可在计算产物肽段前加以修饰。③TGREASE(疏水性工具)。是FAS-TA工具包中的程序,能够沿着蛋白质序列长度计算其疏水性(疏水性是每种氨基酸的固有特性,影响蛋白质的三级空间结构)。这个程序的疏水性预测方法依赖与疏水性的衡量尺度，它将每种氨基酸的物理性质与疏水性相联系,沿着蛋白质序列计算每个残基位点的移动平均疏水性,并给出疏水性和序列曲线。用这个程序还可以发现膜蛋白的跨膜区和高疏水性区的明显相关性。④SAPS(电荷分布工具)

蛋白质序列统计分析,对提交的序列给出大量全面的分析数据。输出结果首先是按照种类对氨基酸的统计计数,然后是电荷分布分析(包括正/负电荷聚集区的位置,高度带电和不带电区域，电荷传播和模式等)，最后给出高疏水性和跨膜域、重复结构和多重态以及周期性分析。

2.2.2.3蛋白质二级结构预测

二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。蛋白质的二级结构预测的基本依据是每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律。蛋白质二级结构预测的方法有3种。一是由已知结构统计各种氨基酸残基形成二级结构

的构象趋势,其中最常用的是Chou和Fasman 法;二是基于氨基酸的物理化学性质,包括堆积性、疏水性、电荷性、氢键形成能力等;三是通过序列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构。各种方法预测的准确率随蛋白质类型的不同而变化。一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。①nnPredict。用神经网络方法预测二级结构,使用FASTA格式文件。蛋白质结构类型分为全α蛋白、全β蛋白和α/β蛋白,输出结果包括“H”(螺旋)、“E”(折叠)和“β”(转角)。该方法在实际的实例预测中,准确率超过65%，而对全α蛋白则能达到79%的准确率。②Predict2Protein。提供了序列搜索和结构预测服务,它先在 SWISS-PROT中搜索相似序列，用MaxHom算法构建多序列比对的profile，再在数据库中搜索相似的profile，然后用一套PHD程序来预测相应的结构特征,不仅仅给每个残基分配 1 个二级结构类型,他还对序列的每个位点的预测可信度给予统计分析。这个方法的平均预测准确率达到72 % ,最佳残基预测准确率可高达90 %。③SSPRED。与 PredictProtein 相似,特点是在对比时特别注意非保守位点的替换,并利用比对结果作出预测结果,然后删除简单不合理的结果单元。