解锁研究新姿势：蛋白建模上手指南

风雨都停了 2020-11-20

展开全文

随着DNA测序技术的突飞猛进，获取蛋白质的序列数据已经十分容易，相比之下如果想要获得蛋白的结构数据则困难许多。然而，在生物领域摸爬滚打，蛋白的三维结构总是一个绕不开的话题。了解课题相关蛋白的三维结构可以加深对蛋白构效关系的理解，可以解释药物小分子发挥作用的关键机制、也有助于阐明基因突变导致生物体形状改变的根本关系，除此之外，基于靶点的药物开发也依赖于受体靶点的结构。而在文章中加入蛋白的三维结构图，也能让你的文章高大上起来。

目前主流的蛋白解析技术是冷冻电镜和X射线晶体衍射，除此之外还有部分结构通过核磁的方法解析。但无论是哪一种方法都耗时耗力且价格不菲。

对于已经解析出结构的蛋白，我们可以通过蛋白的名称或者对应的PDB：ID在RCSB检索它的结构。

RCSB：https://www./

然而截止目前, RCSB-PDB的数据库中仅存储了17万条蛋白质的结构数据, 而这只占UniProt中所有蛋白质序列数的千分之一左右，也就是说到目前只有约千分之一的人类已知蛋白质序列拥有通过实验测定的三维结构。

而当我们想要调研的蛋白三维结构还没有被解析，精确预测预测蛋白的三维结构就变得尤为重要。

随着人们对蛋白质的理解加深以及计算机的发展，通过对蛋白质三维结构的建模可以帮我们尽可能精准地获得蛋白结构。通过计算机模拟上蛋白结构研究的空白。

建模原理简介

目前主流的蛋白质建模方法主要包括同源建模、折叠识别和从头计算三种方式。

同源建模主要是以已知的蛋白质三维结构作为模板对未知的蛋白质三维结构进行预测。其理论基础在于蛋白质的一级结构比三级结构要更为保守。

由于同源建模是以已解析结构的蛋白为基础，因此，其预测结果通常更受认可。对于拥有同源性高于25%模板的结构，同源建模软件通常都可以还原出较为精确的蛋白结构。

折叠识别的基本原理是从蛋白质结构数据库中识别与待测序列具有相似折叠类型的序列，进而实现蛋白序列的空间结构预测。

其理论依据在于蛋白的折叠类型有限，不同序列共享有限的折叠类型。

从头计算的方法是基于热力学基础的。蛋白质的天然构象对应其能量最低的构象。因此我们通过构造合适的能量函数及优化方法，便可以实现从蛋白质序列直接预测其三维结构的目的。

手把手教你构建蛋白模型

基于这些理论，现在有许多对应开发的软件。对于本地端的软件而言，modeller是较好的选择。但是本地端的蛋白结构预测软件都需要简单的代码基础，对新手并不友好。在这里推荐三款比较常用的在线服务器：swiss-model、phyre2和trRosetta的使用方法。目前在线服务器的预测精度根据评测文章结果与本地端软件间不相伯仲。

无论使用哪一种蛋白建模方式，首先都需要获得对应蛋白质的氨基酸序列，蛋白的氨基酸序列可以从uniprot上获取。

登录uniprot官网在搜索框中检索对应的蛋白名称。

https://www./