搜索

分享

QQ空间 QQ好友新浪微博微信

实验时间 | STRING 玩转功能蛋白质组研究，高级又简单

yjt2004us 2018-04-17

展开全文

蛋白质不是孤立存在与生物体中的，它们之间的相互作用往往发挥着重要的生物学功能，因此，功能蛋白质相互作用研究已经越来越受到研究者的重视。STRING 是集研究蛋白质相互作用组研究、基因组研究和蛋白质组研究于一体的非常强大的软件。现在我分析数据已经越来越离不开他了。我们可以进行在线数据分析。

图 1

可以通过输入蛋白质名称，多个蛋白名称，氨基酸序列等搜索 STRING。当我们不清楚物种是什么时也不用担心，因为网站有自动生成器，物种能够被自动识别出来。这里以分析大肠杆菌中的 77 个蛋白为例。步骤如下：

图 2

1. 选择「Multiple proteins」;

2. 在蛋白名处输入所有蛋白名或基因号；

3. 在「Organism」处输入「Escherichia coli」;

4. 点击 SEARCH。

图 3

5. 下一页是确认物种页面，可以从中选择需要的物种。或者如果不确定物种时，可以选择匹配到蛋白数目最多的。点击「CONTINUE」。

图 4

6. 下一页是确认蛋白页面，对于我们输入的每一个蛋白，网站自动进行匹配，将最有可能的蛋白排在第一位并打勾，并对于每一个蛋白进行简单的标注。这时我们就可以检查这些匹配的蛋白是不是我们所关心的蛋白。当确认了所有蛋白后就可以「CONTINUE」了。

图 5

7. 这时，就会出现所有蛋白的预测相互关系网络图了。

下面我会详细介绍这张蛋白网络图和下面每一个选项的作用：

① STRING 使用弹簧模型来生成网络图像。节点被模拟为弹簧的质量和连线；通过最小化系统的「能量」来计算图像中节点的最终位置。首先，图中连线的两个节点间的物理距离没有意义。其次，虽然算法是确定的，但是新的节点添加到网络会导致新图像中节点位置完全改变。最后，虽然输入节点是抽象意义上的网络的「中心」，但它可能并不位于网络图像的中心位置。

图 6

② 网络节点是蛋白质。大节点表示此蛋白的 3D 结构已知或已被预测，小节点表示 3D 结构未知。蛋白间的连线表示预测的功能关联。连线有 7 个不同颜色：

红线—基因融合

绿线—基因相近

蓝线—基因共同产生

紫线—实验证明

黄线—文本挖掘证据

浅蓝线—辅助数据库证据

黑线—基因共同表达。

线的厚度表示相互作用的置信预测度。点击节点和连线会给出蛋白质详情和证据详情。

图 7

③ Data Settings

「active interaction sources」：可以选择哪种类型的证据将有助于预测分数。

「minimum required interaction score」：将置信度得分设置为阈值，使得只有大于该分的关系才包括在蛋白网络中。较低的分数意味着更多的互动，更多的假阳性。

图 8

④View Settings

「meaning of network edges」：1）证据：其中颜色表示交互证据的类型；2）置信线厚度表示数据支持的强度；3）分子作用线形状表示预测的作用模式。

「network display mode」：1）静态图像：图像是一个简单位图图像；2）交互式 svg：图像是一个可扩展的矢量图形；3）交互式闪存：蛋白网络显示在 Flash 程序中，可实现更多功能（如，聚类）。

图 9

⑤Tables/Exports

可以将蛋白网络导出为以下格式：

位图：PNG 文件格式的网络图像。
高分辨率位图：PNG 格式的图像，分辨率为 400 dpi。
矢量图形：可以在 Illustrator，CorelDraw，Dia 等中打开和编辑的 SVG 格式图像。
表格文本： TSV 格式的数据。可以在 Excel 中打开。
XML 摘要：结构化 XML 格式的数据。
网络坐标：描述网络中节点坐标和颜色的平面文件格式。
蛋白质序列 - MFA：多基因格式，含有网络中的氨基酸序列。
蛋白质注释：制表符分隔的文件，描述网络蛋白质的名称，结构域和功能。

图 10

⑥Evidence

「Neighborhood」：基因组中邻近发生的基因。

「Co-occurrence」：物种间存在或不存在交联蛋白。蛋白质列在页面顶部，具有物种名称的系统发育树在左侧。在后面的网格中，物种中蛋白质用红色正方形标记。

「Fusion」：物种中的基因融合。发生融合的物种列在左边。根据页面底部的表进行着色。

「Co-expression」：在相同或不同物种中共表达的基因。红色方块表示共表达，深的颜色表示更多关联。

「Experiments」：从其他蛋白 - 蛋白相互作用数据库收集的蛋白相互作用组的列表

「Databases」：从辅助数据库收集的蛋白相互作用组的列表。

「Text mining」：从文献中提取的蛋白相互作用组的列表。

图 11

⑦Analysis

给出了蛋白网络的简要统计，如节点数和边数。平均节点度是蛋白质在网络中平均有多少相互作用。聚类系数是网络节点连接的度量。

图 12

8. 最后，我们也可以对这些相互作用蛋白进行通路分析。在交互式闪存模式下，选择「enrichment」选项下我们可以进行 GO、KEGG、PFAM 等蛋白分析。选择「Clusters」，我们则可以对蛋白进行聚类分析。

这样，完整的数据分析与网站功能我们就都非常清楚了，希望对大家的科研有所帮助！

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： yjt2004us > 《生信》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

yjt2004us

关注对话

TA的最新馆藏

生信分析过程中这些常见文件的格式以及查看方式你都知道吗？
献给初学者，手把手教你如何快速查找基因序列信息！
用EndNote编辑最适合投稿杂志的参考文献格式（适用所有杂志）
使用Python实现文件压缩和解压
出于无聊，我给你们分析了一下去年灌的生信文章
功能这么强的基因，作者怎么找到的？

喜欢该文的人也喜欢更多

热门阅读换一换