【原】cytoscape十大插件之九 - 转录调控王者 iRegulon

健明 2021-07-26

展开全文

五一劳动节，连续五天，在钉钉群直播互动授课带领大家系统性掌握cytoscape软件的使用方法和技巧，课程已经结束啦。文末有录播回放学习方式，以及配套授课资料！

下面是cytoscape讲师的笔记

一、iRegulon插件

基因调控网络通过调节基因的表达量和时间-空间分布特征影响生物发育，维持内稳态和疾病发生发展。因此，明确基因调控网络的拓扑学原理有助于对机制深入探讨。**基因调控网络由转录因子与其直接靶基因之间的相互作用组成。**每一种调控相互作用都代表着转录因子与靶基因附近特定DNA结合位点。
在这里，我们提出一个计算方法，称为iRegulon，以识别目标基因的重要调控因子。
iRegulon插件主要使用近10000个TF motifs数据库和1000个ChIP-seq数据集或“tracks”来检测富集的TF motifs或ChIPseq峰。接下来，它将富集的TF motifs和“tracks”与靶点基因联系起来。iRegulon作为一个Cytoscape插件，支持人类、小鼠和果蝇基因。（可理解成tracks是和motifs差不多的数据库）

二、基本概念

我们先了解下一些基本概念~

2.1 转录因子

DNA→mRNA→蛋白质是典型的中心法则之一。而DNA转录的开始就需要转录因子的参与。从定义上来说，转录因子是一群能与基因5'端上游特定的序列专一性结合，从而保证目的基因以特定的方式转录翻译成蛋白质。
转录因子的本质是与DNA特异性结合的一系列蛋白质。一般有不同的功能区域，如DNA结合结构域与效应结构域

DNA-binding domain（DBD）: DNA结合结构域。负责结合基因组调控区的DNA序列
Effector Domain（s）：调控效应区结构域。

调控转录因子活性。
介导蛋白与蛋白互作（PPI）。
具有调节组蛋白相关底物的酶学活性

2.2 转录因子结合位点（Transcription factor binding site，TFBS）

与转录因子结合的DNA片段，长度通常在5~20 bp范围内，一个转录因子往往同时调控若干个基因，而它在不同基因上的结合位点具有一定的保守性，又不完全相同。

2.3 顺式调控模块(Cis-Regulatory Module, CRM)

转录调控通常需要多个转录因子的合作, 它们的TFBS之间距离较近 , 组成相应的“顺式调控模块”

2.4 motif序列

motif: recurring pattern. eg, sequence motif, structure motif or network motif
DNA sequence motif: short, recurring patterns in DNA that are presumed to have a biological function
从上边的定义可以看出，其实motif这个单词就是形容一种反复出现的模式，而序列motif往往是DNA上的反复出现的模式，并被假设拥有生物学功能。
我们使用术语”motif”或“pattern”在模型的意义上代表一个TF结合位点的特异性，而且，经常是一些具有序列特异性的蛋白的结合位点（如，转录因子）或者是涉及到重要生物过程的（如，RNA 起始，RNA 终止， RNA 剪切等等）
通过motif 序列，我们可以研究相应转录因子的功能，预测潜在的结合位点等等，因而搜索、计算出motif，成为转录因子研究的重要一步

三、工作原理

3.1 排序

第一步是排序，根据PWM库（PWM is a matrix representation of a regulatory motif）对22284个人基因进行排序，对每个基因，我们用隐马可夫模型（Hidden Markov Model）搜寻转录起始点(TSS)附近（如500bp,20kb或10kb）的区域的顺式调控模块(CRM)
如果从N个PWM库开始，就可以建立N个基因排序，每个基因排序都把最有可能的目标基因的motif排在最前面。然后在10种其它同源物种中重复上述工作，每个PWM的最终排序就通过这10个物种的综合排序获得。
这里有两种PWM库，一个是6K库，一个是10K库。这些库包含来自不同物种的PWM，以及没与TF对应的PWM。最终结果得到一个SQLite数据库，这个库里包含有N个基因排序。

3.2 回收

第二步：回收。需要共表达基因作为输入信息。就是探讨这些基因在哪些PWM所对应的基因排序中富集，具体可以用AUC来表示。AUC通过计算前3%(默认值，对应FDR在3%-9%)基因里包含多少比例的共表达基因来表示

四、操作演示

4.1 插件下载

可参考前面推文

4.2 导入数据

今天我举的例子是利用插件的常用情况：如何预测靶基因的转录因子？？
首先准备靶基因
只有一列，选择source node即可

4.3 预测TF

先选中需要预测TF的靶基因（黄色为已选中）
打开Apps--iRegulon--Predict regulators and targets
出现以下参数窗口
Node information

Number of selected genes: 所预测的基因数目

Ranking：

Type of search space: 基于基因
Motif collection: 10k / 6k
Track collection: 1120 ChIP-seq/ 750
Putative regulatory region：起始位点上下游端
Motif / Track rankings database: 排序所根据的数据库

Recovery:

富集分数
AUC值
排序阈值

TF prediction

FDR：发现错误率

4.4 结果

结果主要分三个部分：Motifs，Tracks，Transcription Factors

Motifs

会在cytosacpe右侧面板出现结果。先选择Motifs
**Enriched Motif ID：**特征序列ID、
**NES：**根据PWM库富集出来计算得分。类似匹配程度
**AUC：**基因里包含多少比例的共表达基因来表示
ClusterCode ： 聚类（根据相似的Motifs）
**#Target：**目标基因数目
**#TF：**转录因子数目

如选择第三行后，出现下方的内容

左边：**logo展示图：**用于描述序列特征

内容：ATCG
字母的相对大小表示它们在序列中的频率
每个字母的高度与该位置的相应碱基的出现频率成正比，常以bits为单位

**Transcription Factor：**转录因子
**orthologous identification：**同源性
Motif Simialrity : Motif 间相似性
右边就是靶基因的名称

Tracks

Motif 和 Tracks 应该是两个类似的求TF的数据库，出来的结果列名也类似，不过一般选择 Motifs的结果

Transcription Factors

选择 Transcription Factors后，列表主要以TF呈现结果
如选择第一行 SOX10
A ：TF 对应的两个 Motifs
B：两个Motifs 总共对应的 TF。其中Filter 绿色✔即为第一行Motifs对应的TF
C：该TF 对应的靶基因

4.5 网络图

画网络图时，如果对对应靶基因最多的TF感兴趣，直接选中，点击上方➕，就可出现对应网络

五、预测靶基因

iRegulon 插件还能通过 TF 预测靶基因

选择对应TF（插件内有选择）
得到网络，可调整 layout

六、心得

插件需要调整的参数较多，一般都是在原理涉及到的数据库，若想了解个中缘由可查看对应插件文献

一般文献默认参数，结果挑选对应靶基因最多的TF进一步研究

Curcumin suppresses LGR5(+) colorectal cancer stem cells by inducing autophagy and via repressing TFAP2A-mediated ECM pathway - PubMed (nih.gov)

也可构建miRNA-target gene-TF 网络

大家可模仿一下这篇文献，先构建好miRNA网络，再根据文献对应参数，就可以出来和文章一样的网络图！
Identification of MicroRNA-Target Gene-Transcription Factor Regulatory Networks in Colorectal Adenoma Using Microarray Expression Data (nih.gov)
参考：
iRegulon webpage · Tutorial (aertslab.org)
iRegulon: From a Gene List to a Gene Regulatory Network Using Large Motif and Track Collections (plos.org)
Discovering protein-binding RNA motifs with a generative model of RNA sequences - ScienceDirect
The Human Transcription Factors - ScienceDirect
转录因子结合位点生物信息学研究进展 (chinagene.cn)