抗原决定簇预测经验分享

萝卜涨价了 2018-06-21

展开全文

1、B细胞表位预测对于多种免疫学研究是必不可少的。针对不同的蛋白，应选择不同的方法。一般来说，蛋白质的C端具有较好的亲水性、表面可及性和柔性，所以是很好的抗原决定簇区域。本课题选用的蛋白质C-末端序列标签都是唯一的、或是其家族中的几个成员所共有的。在人蛋白质中，约81%的蛋白质其C末端的5个氨基酸残基的小肽是该蛋白质所特有的，制备针对蛋白质C末端小肽的抗体，常常能得到特异性识别该全蛋白的抗体。另外，蛋白的二级结构是B细胞表位计算机预测的重要参数之一，β转角为凸出结构，多出现在蛋白质抗原表面，有利于与抗体结合，较可能成为抗原表位。而α螺旋和β折叠结构规则不易变形，较难结合抗体，一般不作为抗原表位。含有5个以上的氨基酸残基的转角又常称为环(loop)。以往的研究表明，蛋白表面的loop区可能为功能性抗体的识别位点，特异性好，可及性强。本课题选用的HPO、G-CSF、HSA空间结构已明确，所以直接选择loop区或无规卷曲作为B细胞表位。
举例：
人Pif1基因编码至少两种蛋白亚型，分子量分别为74kDa和80kDa，与酵母具有高度的同源性，α型和β型Pif1只有C末端不同[20]，其余部分完全相同，并且二者的C末端在蛋白数据库中都是唯一的，选择α型和β型的C末端作为B细胞表位，既满足特异性的需要，也能区分亚型。
GPAA1是一种跨膜蛋白，原核表达非常困难，形成包涵体，且包涵体难以溶解和复性。对这一类型的蛋白，非常适合选择其特有的B细胞表位免疫动物，来最终制备识别全蛋白质的抗体。ABCpred是基于人工神经网络模型的线性B细胞表位预测工具，该系统检验了源于Bcipep数据库的700个非冗余B细胞表位和源于Swiss-Prot数据库的700个长度为10~20个氨基酸的随机选择多肽，准确率近66%。Bepipred结合隐马尔科夫模型和亲水性参数评分预测线性B细胞表位，AROC评分达到0.671。将两种预测方法得到的预测结果进行比较，其共有的预测表位是真正B细胞表位的几率更大，如果能进一步结合蛋白质二级结构预测结果，就可以选出可信度更高的B细胞表位。如何选择有效的B细胞表位是能否实现无完整蛋白质抗原条件下抗体制备的关键。
2、对于B细胞表位的选择，对于已有空间结构信息的蛋白质抗原，直接选择蛋白分子表面的loop区或无规卷曲区域的小肽序列作为候选B细胞表位；对于缺乏空间结构信息的蛋白质抗原，需要根据蛋白质抗原的特点具体分析。若蛋白质抗原C末端的序列亲水性好，可以选择C末端的6～10个氨基酸的序列作为候选B细胞表位，并且最好该序列为该蛋白质所特有；也可采用B细胞表位预测程序进行分析，选择不同程序预测的共有B细胞表位；对于同源性很高的家族蛋白，根据序列比对结果选择差异较大的区域，并且所选序列应该符合B细胞表位的特征。基于以上原则，本实验选择了10个蛋白的14个表位，并对其中的12个表位进行了验证。

3、对于B细胞表位的选择，
（1）对于空间结构已知的蛋白质，直接选择蛋白分子表面的loop区或无规卷曲区域的小肽序列。
（2）对于空间结构未知的蛋白质，可采用以下策略进行选择：
A：若蛋白质C末端序列的亲水性好，可以选择C末端的6～10氨基酸的序列作为候选B细胞表位，最好该序列为该蛋白质所特有。可采用SIB BLASTNetwork Service（http://www./tools/blast/）的BLAST软件进行比对，数据库选择homo sapiens；
B：采用B细胞表位预测程序ABCpred和BepiPred等进行表位预测，选择不同程序预测的共有B细胞表位；
C：对于同源性很高的蛋白质，首先根据序列比对结果选择差异较大的区段，并且所选序列应该符合B细胞表位的特征。

4、二级结构预测　分别应用EX-PASY服务器(http: //www. expasy. org/tools)上的GOR4[4]、HNN (Hierarchical Neural Network meth-od)、SOPMA、nnPredict[University ofCalifornia atSanFrancisco (UCSF)]等方法。
亲水性、柔韧性、表面可能性和抗原表位预测　应用DNAstar软件的子程序Protean,采用Hopp-Woods和Kyte-Doolittle方案预测氨基酸的亲水性[5, 6],采用Karplus-Schultz和Emini方案预测柔韧性及表面可能性[7, 8],采用Jameson-Wolf方案[9]和吴氏抗原指数法[10]预测潜在的B细胞抗原表位。

5、　对获取序列的生物信息学处理分析
　　使用DNASTAR软件分析获取的序列,结合NCBI上的BLAST寻找最匹配的短序列。用全部和部分肽序列查询各国专利数据库:
　　http: //appft1. uspto. gov/netahtml/PTO/search-adv. ht/
　　http: //www. freepatentsonline. com /5194592. htm /
　　http: //www. stcsm. gov. cn/resource/data/zhuanl.i asp#1
　　使用蛋白质在线分析工具分析多肽的疏水性、PI值、稳定性:
　　http: //www. expasy. org/
　　http: //www. rcsb. org/pdb/cgi/explore. cg?i pdbId=1fi6
　　http: //www. rcsb. org/pdb/search/searchSequence. do
　　http: //www. expasy. org/sitemap. html
　　http: //www. expasy. org/tools/#translate
　　http: //www. expasy. org/tools/blast/

常用数据库和预测工具：名称网址说明
ABCpred http://www.imtech./raghava/abcpred 人工神经网络线性B 细胞表位预测工具
AgAbDb http://202.4 1.70.51:8080/agabdb2/ 抗原-抗体共结晶结构的分子相互作用数据库
AntiJen http://www./AntiJen B 细胞表位定量结合数据库
Bcipep http://www.imtech./raghava/bcipep/ B 细胞表位数据库
Bepipred http://www.cbs./services/BepiPred 基于序列的线性表位预测工具
CEP http://bioinfo./cep.htm 基于结构的连续性和非连续性表位预测工具
DiscoTope http://www.cbs./services/DiscoTope 基于序列/结构的非连续性表位预测工具
Epitome http://www./services/epitome 抗原-抗体相互作用残基数据库
HIV database http://www.hiv./content/immunology HIV免疫表位数据库

IEDB http://www. T细胞和B细胞表位数据库含阴性数据

汉化版抗原决定簇预测http://www./tools/epitope-prediction.html基于5种算法得到5种分析结果，综合进行分析（推荐）

IEDB B-cell http://www./tools/bcell/iedb_input 基于序列的线性表位预测工具

6、B细胞表位预测的方法及应用
线性表位的预测方法
B细胞表位的预测方法主要集中于线性表位，在二十世纪七、八十年代发展起来的大量的预测B细胞表位的算法都是基于蛋白质序列。这些算法包括：蛋白质的亲水性算法(Hydrophilicity)：认为蛋白质各氨基酸残基可分为亲水残基和疏水残基两类。在机体内，疏水性残基一般被埋在蛋白内部，而亲水性残基位于蛋白质表面，因此，蛋白的亲水部位与蛋白抗原表位有着密切的联系。Hopp-Woods(Hoop TP et al.,1981)算法为最常用的。可及性算法(Accessibility)：常用的有Janin可及性参数，即指蛋白质抗原中氨基酸残基被溶剂分子接触的可能性(Rudolph R et al.,1990)。它反映了蛋白质抗原各个氨基酸残基的分布情况。蛋白质可塑性算法(Flexibility)：此算法认为蛋白质抗原构象的多肽链骨架具有一定程度的活动性，活动性强的氨基酸残基即可塑性大，易形成抗原表位(Karplus PA et al.,1985)。蛋白质二级结构预测算法(Secondary structure)：该算法认为蛋白质二级结构与蛋白质表位的分布关系密切。α螺旋、β折叠化学键键能比较高，形态固定，常处于蛋白质内部，难以与抗体嵌合，而β转角和无规则卷曲多处于蛋白质的表面，结构松散，易展示在蛋白质表面，有利于与抗体嵌合，成为抗原表位的可能性大(来鲁华,1993)。蛋白质抗原性算法(Antigenicity)：Welling(Welling GW.,1985)通过对20个已研究得很透的蛋白质的69个连续位点的606个氨基酸统计分析，用各氨基酸残基在已知B细胞表位中出现的百分率与其通常在蛋白质中出现的百分率比值的对数建立了抗原性刻度，并以此计算蛋白中各亚序列的抗原性。这些方法的代表软件有PEOPLE(Alix AJ et al.,1999)、PREDITOP(Pellequer JL et al.,1993)、BEPITOPE(Odorico M et al.,2003)、Bcepred(Saha S et al.,2004)等。但是最近Blythe及Flower(Blythe MJ et al.,2005)对氨基酸的性质与线性表位的关系做了一个评估，结果表明基于氨基酸序列信息来预测线性表位，即使很好的结合了氨基酸的各种性质，其预测结果仅略强于随机预测。近年来，一些应用隐形马尔可夫模型(HMM)、人工神经网络(ANN)、支持向量机算法(SVM)及其他技术的机器研究方法(Ponomarenko JV et al.,2007)已经被引入来预测B细胞表位，取得了较好的结果。代表软件有ABCpred(Saha S et al.,2006)、BepiPred(Larsen JEet al.,2006)、APP(Chen J et al.,2007)等。ABCpred采用人工神经网络来预测线性表位，从Bcipep和SwissProt数据库中提取非冗余的表位肽和非表位肽作为训练集，采用5-折交叉验证，预测敏感性约为67%，特异性约为64%。BepiPred结合氨基酸的性质（亲水性、柔韧性、可及性、极性、暴露表面、转角）和隐形马尔可夫模型来预测线性表位，预测结果表明，同那些仅依赖于氨基酸性质的预测方法相比，BepiPred预测结果的准确性有一定程度的提高。Chen et al.(2007)发现氨基酸通常成对出现在抗原表位的频率要比其出现在非表位肽段的频率高，基于此，并联合支持向量机算法建立了APP方法。应用此方法在872个表位肽和872个非表位肽数据集中，采用5-折交叉验证，预测准确度为71%。Yasser EL-Manzalawy(EL-Manzalawy Y et al.,2008)等采用同一数据集对这三种方法进行比较，结果表明ABCpred预测表位的准确性略高于BepiPred及APP。
构象表位的预测方法目前，绝大多数B细胞表位预测方法都是基于蛋白质的一级或二级结构的，但这些方法只能用来预测由连续的氨基酸残基构成的线性表位，而基于蛋白质的三级结构来预测构象表位的方法比较少，这是因为各种抗原的构象表位可获得的数据要远远少于线性表位，并且到目前为止，几乎没有哪个抗原的所有的表位都能够彻底的研究清楚(HasteAndersen P et al.,2006)。基于蛋白质三级结构来预测构象表位的方法CEP(Kulkarni-Kale U et al.,2005)(Conformational Epitope Prediction)：这是第一个以抗原蛋白的三级结构PDB文件作为输入条件，以构象性表位预测为主要目的的网上免费服务软件。它提供了一个预测构象表位的web界面，这种方法除了能够预测构象表位，同时也能预测线性表位。它主要根据氨基酸残基的溶剂可及性及空间距离截值来预测表位，其公布的预测精度达75%。DiscoTope(Haste Andersen P et al.,2006)：是通过蛋白质三级结构数据来预测构象表位的一种新方法，这种方法通过对X射线晶体衍射确定的76个抗原抗体复合物所组成的构象表位数据集进行大量统计度量、空间特征分析和表面可及性计算，对B细胞构象性表位进行预测，最终对组成蛋白序列的每个氨基酸打分，通过分值来反映某一氨基酸成为表位的可能性，并提供了阈值来确定组成表位的氨基酸残基。预测蛋白质与蛋白质相互作用位点的方法除以上两种方法之外，还有最近发展起来的一些预测蛋白质与蛋白质相互作用位点的方法。
由于抗原抗体之间的相互作用属于蛋白质与蛋白质之间相互作用中的一种，因此，可以参这些方法来预测B细胞表位。分子对接：主要用来研究分子间的相互作用与识别，进而预测复合物结构。常用的分子对接软件有ZDOCK(Chen R et al.,2003)、DOT(Shoichet BK et al.,1991)、DOCK(Mandell JG et al.,2001)、ClusPro(Comeau SR et al.,2004)等。其中ClusPro是一个提供网上服务的分子对接软件，其能够根据形状互补快速的筛选ZDOCK和DOT程序产生的对接结果，并对对接结果聚类，根据聚类情况对对接结果打分，最终返回10个得分最高的对接结果，再根据这些对接结果来确定蛋白质相互作用的位点。PPI-Pred(Bradford JR et al.,2005)(protein-protein interface prediction)将支持向量机的方法同曲面分析结合在一起预测蛋白质相互作用位点。ProMate(Neuvirth H et al.,2004)(Predicting the location of potential protein-protein binding sitesfor unbound proteins)是将一些蛋白质相互作用界面的重要性质综合起来预测蛋白质相互作用位点。这些性质包括：结合位点通常偏向位于β片层及非结构的链；芳香族氨基酸的侧链常会参与蛋白质与蛋白质的相互作用；疏水氨基酸和极性氨基酸常聚集在蛋白质与蛋白质相互作用的界面；以及在晶体结构中结合位点的周围有更多的水分子与之结合。Ponomarenko和Bourne采用以上几种方法预测构象表位并使用同一评估体系对其进行了比较，结果表明，这些方法的准确性均未超过40%，如果用ROC(Relative operating characteristic)曲线下面积的值来评估这些方法，则DiscoTope，和PPI-PRED的值大约是0.6，ClusPro的值高于0.65，但未超过0.7，而其它的方法接近于随机预测。尽管这些年来B细胞表位预测的方法得到了一定的发展和应用，但这些研究方法还存在一定的问题。首先，所有预测表位的方法都缺乏标准的ROC(Swets JAet al.,1988)评估，这使得各种预测方法的结果难以比较与评估；其次，大多数预测线性表位的方法都具有一定的局限性，它们仅仅是根据少数的几个表位的特征（氨基酸的性质，残基的表面可及性，空间分布，分子间接触）来预测表位，而最近对各种线性表位预测方法进行评估的结果表明，仅根据氨基酸的性质来预
测线性表位的方法并不可靠。要想提高预测的准确性，需将更多表位区别于非表位的特征结合起来预测；最后，目前预测表位的方法大多数是针对于线性表位的，而据研究表明(Barlow DJ etal.,1986)90%以上的表位为构象表位，因此在进一步完善线性B细胞表位预测研究的基础上，从蛋白质的三级结构入手，深入对构象性B细胞表位预测算法与程序的研究。同时，我们也相信随着PDB数据库中抗原抗体复合物的增加，能够对各种抗原的构象表位进行更广泛的分析，人们对蛋白质抗原表位的研究将更加透彻。
以上都是前辈们总结的，我只是借平台和同我一样迷茫的人们一起分享，希望有助于解决问题。但有一点，大多数软件预测得到的是线性表位，需要构像表位，最好结合噬菌体肽库筛选。