分享

肽质量指纹图谱PMF蛋白质谱鉴定的算法解析

 百泰派克生物 2020-07-14

肽质量指纹图谱分析的复杂性

肽质量指纹图谱PMF分析方法一文中使用了非常简单的例子来说明肽质量指纹图谱识别蛋白质的概念。通过测量多个肽的m/z值,确定其蛋白质前体为人血红蛋白α

在实际情况中,有以下因素会使肽质量指纹图谱变得复杂。第一,真实的多肽质谱数据并不能如前文的例子那样完美。尽管大多数配备有反射仪或延迟提取的MALDI-TOF仪器测量m/z能够测定0.005个单位或更小的肽离子,但误差是不可避免的。第二,在实际样品的MALDI-TOF光谱中经常会出现大量的信号,而有些信号来自于多个蛋白质。考虑到二维凝胶上的大多数胶点都含有2-3个蛋白质,一个典型的50kDa的蛋白质可能产生25-40个胰蛋白酶肽,以及样品中掺杂的其他污染物(例如,处理样品时由于不小心,在样中留下了人角蛋白)。这些因素结合起来导致产生复杂的光谱,可能来自多种蛋白质的肽。第三,总有一种可能性存在,即某些数据库匹配仅仅是由于偶然性,而并不是真实的那个蛋白质。对于较大的蛋白质来说,假阳性匹配的可能性更大,因为它们通过胰蛋白酶消化的得到的比较小的肽更多

肽质量指纹图谱PMF的算法解析

肽谱图分析流程(来源:百泰派克生物科技)

肽质量指纹图谱分析通常会涉及到大量的数据和计算,可以通过数据简化算法和软件解决。有许多软件工具可用于通过肽质量指纹图谱进行蛋白质鉴定。

首先,用户要选择一个进行搜索的数据库,可以指定蛋白质和/或基因序列数据库(如果选择后者,则需要翻译基因序列)。SWISS-PROT数据库是一个广泛使用的优质蛋白质序列数据库。其他常用的蛋白质序列数据库包括OWLNCBInr数据库。然后,用户可以提供有关样本来源的信息,以便将搜索范围限制在相关的生物体。例如,从小鼠蛋白质中提取的样本可以对照哺乳动物序列数据库、啮齿动物序列数据库,或者更具体地说,小鼠序列数据库。特异性是很有用处的,因为它可以限制与数据进行比较的次数,以及限制其他生物体中的匹配次数。除了这些特性之外,用户还可以输入要搜索的蛋白质的分子量范围,这又进一步限制了要进行比较的次数。

其后,用户可以指出用于切割蛋白质的酶(如胰蛋白酶)并确定可能的切割位点缺失的数量。这些缺失的切割位点是酶不全消化造成的。因此,匹配算法可以为这类肽生成条目,以防它们出现在样本中。最后,用户可以指定一些在匹配算法中可以考虑的肽的标准修饰。例如,胰蛋白酶消化过程通常涉及使用碘乙酰胺或碘乙酸对半胱氨酸硫醇进行还原和烷基化,从而改变肽内半胱氨酸残基的质量。此外,在SDS-PAGE过程中,游离半胱氨酸硫醇可能会被丙烯酰胺修饰。用户还可以指定其他的常见修饰,例如磷酸化、硫酸化、糖基化和N-端修饰。所有用户定义的这些修饰允许程序为数据库中修饰和未修饰的肽生成大量匹配项。因此,特定的肽的修饰和未修饰版本的质谱数据都可以与数据库条目相匹配。然后,用户可以输入质谱数据中测量的m/z值,或者指定一个质谱数据文件来自动评估。最后,用户可以输入预期的质量容差,以控制质谱的 m/z值和计算出的m/z值之间的配对与完全匹配的对应程度。

用户单击启动后,软件首先对要使用的数据库进行预过滤。例如,如果将小鼠指定为要搜索的生物种类,则需排除所有非鼠的项。如果选择的蛋白质质量范围为2000-100000,则排除质量在该范围之外的所有其他蛋白质。然后数据库中的剩余序列用指定的酶进行虚拟消化。如果允许漏切,肽列表需要包括那些由不完全消化产生的肽。用户指定了修饰的肽的版本也要包含进去。最后,根据质量(或m/z值)对整个肽列表进行排序,然后将每个光谱中的每个m/z信号与该列表进行比较。在用户指定的质量容差范围内的所有匹配项都记录为配对成功,并用于计算分数和鉴定相应的蛋白质。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多