分享

Nat Biotechnol. | SignalP 5.0用深度学习增强信号肽预测

 生物_医药_科研 2019-03-03

    大家好,这周推荐一篇发表在nature biotechnology上的文章,作者是来自丹麦克格斯林格比技术大学生物与健康信息学系的Henrik Nielsen教授。SignalP是被广泛使用的基于机器学习的信号肽预测工具,在蛋白质结构确定和预测等领域得到广泛的应用。



     信号肽(signal peptides-SPS)是许多新合成的蛋白质链末端的氨基酸短序列,它参与蛋白质转运或膜定位等功能。生物信息学工具可以根据氨基酸序列预测信号肽区域,但大多数工具无法区分不同类型的信号肽。本文提出了一种基于深度神经网络的方法,可以改善所有区域的信号肽预测,并区分三种原核生物类型。  


    信号肽存在于几乎所有生物体的很多新生多肽中,并靶向细菌、古细菌和真核生物中的膜包埋输出机器。信号肽在分泌和跨膜蛋白以及真核细胞内细胞器内的蛋白中被发现。在完成细胞定位后,它们会被信号肽酶除去,所以对信号肽区域信息在结构预测领域的一个应用是,在进行结构预测前往往需要先将信号肽序列剪除以简化计算(它们往往也没有固定结构)。


    SignalP是广泛使用的信号肽预测工具,历经多个版本:版本1使用神经网络进行预测;版本2引入了隐马尔科夫模型;版本3增强了切割位点的预测;版本4提高了对信号肽与跨膜螺旋的区分能力。这四个版本只能预测SPaseI的切割底物,也有一些针对SPaseII底物的算法,但之前并没有可以区分所有三类信号肽的算法报道。


     本文中作者采用基于深度神经网络的方法,结合条件随机场(CRF)以及优化迁移学习技术,得到了比传统生信方法更好的结果。他们在真核菌、古细菌、革兰氏阳性细菌和革兰氏阴性细菌数据上以四种类型:Sec/SPI、Sec/SPII、Tat/SPI和“Other”进行训练,将序列前70个氨基酸作为输入,集合中包含20,758条数据。



     作者比较了市面上的18种信号肽预测工具,除了一种Signal-BLAST外,SingalP5.0都具有最优表现。值得一提的是,Signal-BLAST采用的是对已知数据进行blast比对而非序列预测,所以结果显著一般的预测算法而被从比较中排除。


本文作者:LY

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多