前言整理这个专题的缘由,是在朋友圈看到的求助信息。于是我想把我之前了解或者是做过的一些东西整理一下。 Q1: 哪个TF(转录因子)调控了我的基因集?假设你有一个genelist: Gene1 Gene2 Gene3 Gene4 ... 这个genelist可以有很多来源,可以是RNASeq的差异基因,也可以是其他的,等等。你很好奇这个genelist是被哪些TF调控的,有三个方法。 A1: cistrome-LISA 原文答案参考来源:https://mp.weixin.qq.com/s/DI8fxtKSuZ_LemxhFznSDg LISA网址:http://lisa./ 听说LISA的时候,我还没毕业,以旁听生身份参加了一次亚洲冷泉港会议,一位来自同济的Ph.D. Student做poster展示。如今发表在GB上,以cistrome db为基础,进行的预测,可以说可信度较高。 这个方法原文答案已经很详细了,我就不当搬运工了。
A2: TF富集分析 LISA没出之前,用Y叔的clusterprofiler的enricher做的,TF的数据是从TRRUST(https://www./trrust/)下载的。懂点生信的人可以用这个方法。网上也有类似的教程。clusterprofiler的enricher应用广泛,可以但不局限于GO/KEGG(有专门的function),以及上面提到的TF。只要你有用于富集分析的背景数据。不懂编程请看A3。
A3: TRRUST的2.Find key regulators for query genes TRRUST(https://www./trrust/)
以上,仅作参考。
Q2: 我想看我的TF调控了哪些gene?A:查看转录因子数据库 这个举一个列子,Q1提到的TRRUST数据库,只支持human和mouse。Search界面输入TF name即可,Download提供所有TF的下载链接。
Q3: 有没有生物分子互作数据库?A:接触过一个,BioGRID(The Biological General Repository for Interaction Datasets) BioGRID网址:https:/// 记录蛋白与基因的互作信息。可以通过By Identifier 和 By Publication。
Q4: 我有一个genelist,想知道它们的功能以及其他一些注释信息A1: metascape 网址:http:///
Express Analysis 和 Custom Analysis区别在于你的gene有没有表达谱数据,有的话可以做Express Analysis。没有就 Custom Analysis,选一下物种。然后跳转到如下界面:
选择Annotation后:
勾选想要的信息,点一下Apply
然后点击Analysis Report Page:
根据需要下载Excel表格或是ppt,或是zip压缩文件。
A2: DAVID 没能打开,先空着吧。不是很推荐这个。 成功打开了。网址:https://david./ 我不得不吐槽这网址的风格真的是丑瞎眼睛啊。 看最左边的框框,可以看到网站支持的四个功能,Functional Annotation, Gene Functional Classification, Gene ID Conversion, Gene Name Batch Viewer。 总体来说,体验太差。
GO分析使用教程: Step1: 进入Functional Annotation界面 Step2:在Upload处粘贴genelist,选择GeneID的类型,常见的有ENSEMBL_GENE_ID和ENTREZ_GENE_ID,再选择是Gene List, 然后Submit。
为什么存在Background选项? 答:Background 即背景基因集,就是你的Genelist需要比较的对象,一般默认是全基因组中的所有基因。也有的使用的是技术平台所能检测到的基因,或者是包含可能阳性结果的基因。 Step3: Submit后会跳转到List界面,我这里用Demolist1演示。这里我们可以看到Annotation Summary Results了。看到第三个Gene_Ontology了没,就是GO的结果了。
点一下,出现下面的结果,有点和常见的不太一样?看见那个Chart了吗?再点一下。
新弹出的窗口是不是就是你熟悉的了?
OK,到此结束。
Q5: 我有genename,怎么找promoter?A:EPD数据库 网址:https://epd./index.php 输入gene name 结果可跳转到UCSC genome 浏览器,getFASTA可以拿到fasta序列。UCSC genome 浏览器也可以用于查找特定位置的基因组序列。 UCSC genome browser: http://genome-asia./cgi-bin/hgGateway
Q6: 有没有细胞marker数据库?
A:有, cellmarker。 网址:http://biocc./CellMarker/ 支持human和mouse。
Q7:分子实验中需要的常用计算(如连接反应中插入片段与载体的摩尔比例)不懂怎么办?
A:NEB的BioCalculator。 Q8:有没有什么工具可以求两个genelist的overlap?
A:可以用Venny。 Venny:https://bioinfogp.cnb./tools/venny/ 最多可以做四个list哦。 Q9:在线多序列比对及保守序列作图有哪些工具?教程原文:http://www./cosnerved-sequence/ Stan的教程写得很详尽了,故先列出来。 除去教程中提到的EBI的Clustal Omega,还有其他的网页工具可以进行多序列比对。 ExPASy ClustalW:https://embnet./software/ClustalW.html PBIL CLUSTALW: https://npsa-prabi./cgi-bin/npsa_automat.pl?page=npsa_clustalw.html 我们可以看出使用的都是Clustal工具。一般提到序列比对,第一个想到的是BLAST。就我的理解,BLAST针对的是一对多,用于找出数据库中与目的序列最佳的局部比对序列。而ClustalW则是多对多,用的是全局比对。 多序列比对工具除了Clustal,还有TCOFFEE,MUSCLE。没接触过,就不详细展开了。 WUR T-Coffee: http://tcoffee.t/apps/tcoffee/index.html T-Coffee: http://www./tools/t_coffee.html EBI T-Coffee:https://www./Tools/msa/tcoffee/ EBI MUSCLE: https://www./Tools/msa/muscle/ MAFFT:https://mafft./alignment/server/index.html EBI MAFFT:https://www./Tools/msa/mafft/ 就网站界面来看,EBI应该是最友好的,汇总也很全。 网址:https://www./Tools/msa/ Q10:在线画个Sequence logo图A sequence logo is a graphical representation of an amino acid or nucleic acid multiple sequence alignment. Weblogo: http://weblogo./logo.cgi 随手画了个图看看: 升级版 Weblogo3: http://weblogo./ 2020年4月30日更新。 PS: 知乎这不兼容的编辑器啊,我从语雀复制过来,还得重新排版。 语雀原文:https://www./docs/share/7f3362b6-b7e1-49fd-8d56-07f34615084c?#
|