分享

基因表达调控系列问题汇总(持续更新) - 知乎

 测试4321233 2020-11-23

前言

整理这个专题的缘由,是在朋友圈看到的求助信息。于是我想把我之前了解或者是做过的一些东西整理一下。

Q1: 哪个TF(转录因子)调控了我的基因集?

假设你有一个genelist:

Gene1
Gene2
Gene3
Gene4
...

这个genelist可以有很多来源,可以是RNASeq的差异基因,也可以是其他的,等等。你很好奇这个genelist是被哪些TF调控的,有三个方法。

A1: cistrome-LISA
原文答案参考来源:https://mp.weixin.qq.com/s/DI8fxtKSuZ_LemxhFznSDg
LISA网址:http://lisa./


听说LISA的时候,我还没毕业,以旁听生身份参加了一次亚洲冷泉港会议,一位来自同济的Ph.D. Student做poster展示。如今发表在GB上,以cistrome db为基础,进行的预测,可以说可信度较高。
这个方法原文答案已经很详细了,我就不当搬运工了。

A2: TF富集分析
LISA没出之前,用Y叔的clusterprofiler的enricher做的,TF的数据是从TRRUST(https://www./trrust/)下载的。懂点生信的人可以用这个方法。网上也有类似的教程。clusterprofiler的enricher应用广泛,可以但不局限于GO/KEGG(有专门的function),以及上面提到的TF。只要你有用于富集分析的背景数据。不懂编程请看A3。

A3: TRRUST的2.Find key regulators for query genes
TRRUST(https://www./trrust/



以上,仅作参考。

Q2: 我想看我的TF调控了哪些gene?

A:查看转录因子数据库
这个举一个列子,Q1提到的TRRUST数据库,只支持human和mouse。Search界面输入TF name即可,Download提供所有TF的下载链接。

Q3: 有没有生物分子互作数据库?

A:接触过一个,BioGRID(The Biological General Repository for Interaction Datasets)
BioGRID网址:https:///
记录蛋白与基因的互作信息。可以通过By Identifier 和 By Publication。

Q4: 我有一个genelist,想知道它们的功能以及其他一些注释信息

A1: metascape
网址:http:///


Express Analysis 和 Custom Analysis区别在于你的gene有没有表达谱数据,有的话可以做Express Analysis。没有就 Custom Analysis,选一下物种。然后跳转到如下界面:


选择Annotation后:


勾选想要的信息,点一下Apply



然后点击Analysis Report Page:


根据需要下载Excel表格或是ppt,或是zip压缩文件。

A2: DAVID
没能打开,先空着吧。不是很推荐这个。
成功打开了。网址:https://david./


我不得不吐槽这网址的风格真的是丑瞎眼睛啊。
看最左边的框框,可以看到网站支持的四个功能,Functional Annotation, Gene Functional Classification, Gene ID Conversion, Gene Name Batch Viewer。
总体来说,体验太差。


GO分析使用教程:
Step1: 进入Functional Annotation界面
Step2:在Upload处粘贴genelist,选择GeneID的类型,常见的有ENSEMBL_GENE_ID和ENTREZ_GENE_ID,再选择是Gene List, 然后Submit。

为什么存在Background选项?
答:Background 即背景基因集,就是你的Genelist需要比较的对象,一般默认是全基因组中的所有基因。也有的使用的是技术平台所能检测到的基因,或者是包含可能阳性结果的基因。


Step3: Submit后会跳转到List界面,我这里用Demolist1演示。这里我们可以看到Annotation Summary Results了。看到第三个Gene_Ontology了没,就是GO的结果了。


点一下,出现下面的结果,有点和常见的不太一样?看见那个Chart了吗?再点一下。


新弹出的窗口是不是就是你熟悉的了?


OK,到此结束。

Q5: 我有genename,怎么找promoter?

A:EPD数据库
网址:https://epd./index.php
输入gene name


结果可跳转到UCSC genome 浏览器,getFASTA可以拿到fasta序列。UCSC genome 浏览器也可以用于查找特定位置的基因组序列。
UCSC genome browser: http://genome-asia./cgi-bin/hgGateway


Q6: 有没有细胞marker数据库?

A:有, cellmarker。
网址:http://biocc./CellMarker/
支持human和mouse。



Q7:分子实验中需要的常用计算(如连接反应中插入片段与载体的摩尔比例)不懂怎么办?

A:NEB的BioCalculator。


Q8:有没有什么工具可以求两个genelist的overlap?

A:可以用Venny。
Venny:https://bioinfogp.cnb./tools/venny/
最多可以做四个list哦。

Q9:在线多序列比对及保守序列作图有哪些工具?

教程原文:http://www./cosnerved-sequence/

Stan的教程写得很详尽了,故先列出来。

除去教程中提到的EBI的Clustal Omega,还有其他的网页工具可以进行多序列比对。

ExPASy ClustalW:https://embnet./software/ClustalW.html

PBIL CLUSTALW: https://npsa-prabi./cgi-bin/npsa_automat.pl?page=npsa_clustalw.html

我们可以看出使用的都是Clustal工具。一般提到序列比对,第一个想到的是BLAST。就我的理解,BLAST针对的是一对多,用于找出数据库中与目的序列最佳的局部比对序列。而ClustalW则是多对多,用的是全局比对。

多序列比对工具除了Clustal,还有TCOFFEE,MUSCLE。没接触过,就不详细展开了。

WUR T-Coffee: http://tcoffee.t/apps/tcoffee/index.html

T-Coffee: http://www./tools/t_coffee.html

EBI T-Coffee:https://www./Tools/msa/tcoffee/

EBI MUSCLE: https://www./Tools/msa/muscle/

MAFFT:https://mafft./alignment/server/index.html

EBI MAFFT:https://www./Tools/msa/mafft/

就网站界面来看,EBI应该是最友好的,汇总也很全。

网址:https://www./Tools/msa/

Q10:在线画个Sequence logo图

A sequence logo is a graphical representation of an amino acid or nucleic acid multiple sequence alignment.

Weblogo: http://weblogo./logo.cgi

随手画了个图看看:

升级版 Weblogo3: http://weblogo./

2020年4月30日更新。

PS: 知乎这不兼容的编辑器啊,我从语雀复制过来,还得重新排版。

语雀原文:https://www./docs/share/7f3362b6-b7e1-49fd-8d56-07f34615084c?#

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多