五一劳动节,连续五天,在钉钉群直播互动授课带领大家系统性掌握cytoscape软件的使用方法和技巧,课程已经结束啦。文末有录播回放学习方式,以及配套授课资料!
一、iRegulon插件 基因调控网络通过调节基因的表达量和时间-空间分布特征影响生物发育,维持内稳态和疾病发生发展。因此,明确基因调控网络的拓扑学原理有助于对机制深入探讨。**基因调控网络由转录因子与其直接靶基因之间的相互作用组成。**每一种调控相互作用都代表着转录因子与靶基因附近特定DNA结合位点。
在这里,我们提出一个计算方法,称为iRegulon,以识别目标基因的重要调控因子 。
iRegulon插件主要使用近10000个TF motifs数据库和1000个ChIP-seq数据集或“tracks”来检测富集的TF motifs或ChIPseq峰。接下来,它将富集的TF motifs和“tracks”与靶点基因联系起来。iRegulon作为一个Cytoscape插件,支持 人类、小鼠和果蝇基因 。(可理解成tracks是和motifs差不多的数据库)
二、基本概念我们先了解下一些基本概念~
2.1 转录因子DNA→mRNA→蛋白质是典型的中心法则之一。而DNA转录的开始就需要转录因子的参与。从定义上来说,转录因子是一群能与基因5'端上游特定的序列专一性结合,从而保证目的基因以特定的方式转录翻译成蛋白质 。
转录因子的本质是与DNA特异性结合的一系列蛋白质 。一般有不同的功能区域,如DNA结合结构域与效应结构域
DNA-binding domain(DBD) : DNA结合结构域。负责结合基因组调控区的DNA序列Effector Domain(s) :调控效应区结构域。 2.2 转录因子结合位点(Transcription factor binding site,TFBS)与转录因子结合的DNA片段 ,长度通常在5~20 bp范围内,一个转录因子往往同时调控若干个基因,而它在不同基因上的结合位点具有一定的保守性,又不完全相同。 2.3 顺式调控模块(Cis-Regulatory Module, CRM)转录调控通常需要多个转录因子的合作 , 它们的TFBS之间距离较近 , 组成相应的“顺式调控模块” 2.4 motif序列motif: recurring pattern. eg, sequence motif, structure motif or network motif
DNA sequence motif: short, recurring patterns in DNA that are presumed to have a biological function
从上边的定义可以看出,其实motif这个单词就是形容一种反复出现的模式 ,而序列motif往往是DNA上的反复出现的模式,并被假设拥有生物学功能。
我们使用术语”motif”或“pattern”在模型的意义上代表一个TF结合位点的特异性,而且,经常是一些具有序列特异性的蛋白的结合位点(如,转录因子)或者是涉及到重要生物过程的(如,RNA 起始,RNA 终止, RNA 剪切等等)
通过motif 序列,我们可以研究相应转录因子的功能,预测潜在的结合位点等等,因而搜索、计算出motif,成为转录因子研究的重要一步
三、工作原理 3.1 排序第一步是排序 ,根据PWM库(PWM is a matrix representation of a regulatory motif)对22284个人基因进行排序,对每个基因,我们用隐马可夫模型(Hidden Markov Model)搜寻转录起始点(TSS)附近(如500bp,20kb或10kb)的区域的 顺式调控模块(CRM)
如果从N个PWM库开始,就可以建立N个基因排序,每个基因排序都把最有可能的目标基因的motif排在最前面。然后在10种其它同源物种 中重复上述工作,每个PWM的最终排序就通过这10个物种的综合排序获得。
这里有两种PWM库,一个是6K库,一个是10K库 。这些库包含来自不同物种的PWM,以及没与TF对应的PWM。最终结果得到一个SQLite数据库,这个库里包含有N个基因排序。
3.2 回收第二步:回收。需要 共表达基因 作为输入信息。就是探讨这些基因在哪些PWM所对应的基因排序中富集 ,具体可以用AUC来表示。AUC 通过计算前3%(默认值,对应FDR在3%-9%)基因里包含多少比例的共表达基因来表示 四、操作演示 4.1 插件下载 4.2 导入数据今天我举的例子是利用插件的常用情况:如何预测靶基因的转录因子??
4.3 预测TF打开Apps
--iRegulon
--Predict regulators and targets
Number of selected genes: 所预测的基因数目 Type of search space: 基于基因 Motif collection: 10k / 6k Track collection: 1120 ChIP-seq/ 750 Putative regulatory region:起始位点上下游端 Motif / Track rankings database: 排序所根据的数据库 4.4 结果结果主要分三个部分:Motifs,Tracks,Transcription Factors
Motifs会在cytosacpe右侧面板出现结果。先选择Motifs **Enriched Motif ID:**特征序列ID、 **NES:**根据PWM库富集出来计算得分。类似匹配程度 **AUC:**基因里包含多少比例的共表达基因来表示 ClusterCode : 聚类(根据相似的Motifs)如选择第三行后,出现下方的内容
每个字母的高度与该位置的相应碱基的出现频率成正比,常以bits为单位 **Transcription Factor:**转录因子 **orthologous identification:**同源性 Motif Simialrity : Motif 间相似性 TracksMotif 和 Tracks 应该是两个类似的求TF的数据库,出来的结果列名也类似,不过一般选择 Motifs的结果 Transcription Factors选择 Transcription Factors后,列表主要以TF呈现结果 B:两个Motifs 总共对应的 TF。其中Filter 绿色✔即为第一行Motifs对应的TF 4.5 网络图画网络图时,如果对对应靶基因最多的TF感兴趣,直接选中,点击上方➕,就可出现对应网络 五、预测靶基因 六、心得插件需要调整的参数较多,一般都是在原理涉及到的数据库,若想了解个中缘由可查看对应插件文献 一般文献默认参数,结果挑选对应靶基因最多的TF进一步研究 Curcumin suppresses LGR5(+) colorectal cancer stem cells by inducing autophagy and via repressing TFAP2A-mediated ECM pathway - PubMed (nih.gov)
也可构建miRNA-target gene-TF 网络大家可模仿一下这篇文献,先构建好miRNA网络,再根据文献对应参数,就可以出来和文章一样的网络图!
Identification of MicroRNA-Target Gene-Transcription Factor Regulatory Networks in Colorectal Adenoma Using Microarray Expression Data (nih.gov)
iRegulon webpage · Tutorial (aertslab.org)
iRegulon: From a Gene List to a Gene Regulatory Network Using Large Motif and Track Collections (plos.org)
Discovering protein-binding RNA motifs with a generative model of RNA sequences - ScienceDirect
The Human Transcription Factors - ScienceDirect
转录因子结合位点生物信息学研究进展 (chinagene.cn)
大家可以 自行下载钉钉软件申请进群看录播以及下载课程配套资料,“cytoscape网络图绘制”群的钉钉群号:34970303
文末友情推荐