蛋白质不是孤立存在与生物体中的,它们之间的相互作用往往发挥着重要的生物学功能,因此,功能蛋白质相互作用研究已经越来越受到研究者的重视。STRING 是集研究蛋白质相互作用组研究、基因组研究和蛋白质组研究于一体的非常强大的软件。现在我分析数据已经越来越离不开他了。我们可以进行在线数据分析。 图 1 可以通过输入蛋白质名称,多个蛋白名称,氨基酸序列等搜索 STRING。当我们不清楚物种是什么时也不用担心,因为网站有自动生成器,物种能够被自动识别出来。这里以分析大肠杆菌中的 77 个蛋白为例。步骤如下: 图 2 1. 选择「Multiple proteins」; 2. 在蛋白名处输入所有蛋白名或基因号; 3. 在「Organism」处输入「Escherichia coli」; 4. 点击 SEARCH。 图 3 5. 下一页是确认物种页面,可以从中选择需要的物种。或者如果不确定物种时,可以选择匹配到蛋白数目最多的。点击「CONTINUE」。 图 4 6. 下一页是确认蛋白页面,对于我们输入的每一个蛋白,网站自动进行匹配,将最有可能的蛋白排在第一位并打勾,并对于每一个蛋白进行简单的标注。这时我们就可以检查这些匹配的蛋白是不是我们所关心的蛋白。当确认了所有蛋白后就可以「CONTINUE」了。 图 5 7. 这时,就会出现所有蛋白的预测相互关系网络图了。 下面我会详细介绍这张蛋白网络图和下面每一个选项的作用: ① STRING 使用弹簧模型来生成网络图像。节点被模拟为弹簧的质量和连线;通过最小化系统的「能量」来计算图像中节点的最终位置。首先,图中连线的两个节点间的物理距离没有意义。其次,虽然算法是确定的,但是新的节点添加到网络会导致新图像中节点位置完全改变。最后,虽然输入节点是抽象意义上的网络的「中心」,但它可能并不位于网络图像的中心位置。 图 6 ② 网络节点是蛋白质。大节点表示此蛋白的 3D 结构已知或已被预测,小节点表示 3D 结构未知。蛋白间的连线表示预测的功能关联。连线有 7 个不同颜色: 红线—基因融合 绿线—基因相近 蓝线—基因共同产生 紫线—实验证明 黄线—文本挖掘证据 浅蓝线—辅助数据库证据 黑线—基因共同表达。 线的厚度表示相互作用的置信预测度。点击节点和连线会给出蛋白质详情和证据详情。 图 7 ③ Data Settings 「active interaction sources」:可以选择哪种类型的证据将有助于预测分数。 「minimum required interaction score」:将置信度得分设置为阈值,使得只有大于该分的关系才包括在蛋白网络中。较低的分数意味着更多的互动,更多的假阳性。 图 8 ④View Settings 「meaning of network edges」:1)证据:其中颜色表示交互证据的类型;2)置信线厚度表示数据支持的强度;3)分子作用线形状表示预测的作用模式。 「network display mode」:1)静态图像:图像是一个简单位图图像;2)交互式 svg:图像是一个可扩展的矢量图形;3)交互式闪存:蛋白网络显示在 Flash 程序中,可实现更多功能(如,聚类)。 图 9 ⑤Tables/Exports 可以将蛋白网络导出为以下格式:
图 10 ⑥Evidence 「Neighborhood」:基因组中邻近发生的基因。 「Co-occurrence」:物种间存在或不存在交联蛋白。蛋白质列在页面顶部,具有物种名称的系统发育树在左侧。在后面的网格中,物种中蛋白质用红色正方形标记。 「Fusion」:物种中的基因融合。发生融合的物种列在左边。根据页面底部的表进行着色。 「Co-expression」:在相同或不同物种中共表达的基因。红色方块表示共表达,深的颜色表示更多关联。 「Experiments」:从其他蛋白 - 蛋白相互作用数据库收集的蛋白相互作用组的列表 「Databases」:从辅助数据库收集的蛋白相互作用组的列表。 「Text mining」:从文献中提取的蛋白相互作用组的列表。 图 11 ⑦Analysis 给出了蛋白网络的简要统计,如节点数和边数。平均节点度是蛋白质在网络中平均有多少相互作用。聚类系数是网络节点连接的度量。 图 12 8. 最后,我们也可以对这些相互作用蛋白进行通路分析。在交互式闪存模式下,选择「enrichment」选项下我们可以进行 GO、KEGG、PFAM 等蛋白分析。选择「Clusters」,我们则可以对蛋白进行聚类分析。 这样,完整的数据分析与网站功能我们就都非常清楚了,希望对大家的科研有所帮助! |
|