同时基因家族分析的文字版介绍如下: 基因家族分析(一) 近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥); 一、基本分析内容 o数据库检索与成员鉴定 o进化树构建 o保守domain和motif分析. o基因结构分析. o转录组或荧光定量表达分析. 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了 oBrachypodiumdb:http://www./ oTAIR:http://www./ oRice Genome Annotation Project :http://rice.plantbiology./. oPhytozome:http://www./ oEnsemble:http://ensembl./genome_browser/index.html oNCBI基因组数据库:http://www.ncbi.nlm./assembly/?term= 2)已鉴定的家族成员获取。 如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找: a. NCBI: nucleotide and protein db. b. EBI: http://www./. c. UniProtKB:http://www./uniprot/ 2、比对工具。一般使用blast和hmmer,具体使用命令如下: oLocal BLAST formatdb–i db.fas–p F/T; blastall–p blastp(orelse) –i known.fas–d db.fas–m 8 –b 2(or else) –e 1e-5 –o alignresult.txt. -b:output two different members in subject sequences (db). oHmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It has a higher sensitivity, but the speed islower. Command: hmmbuild--informatafaknown.hmmalignknown.fa; hmmsearchknown.hmmdb.fas>align.out. 3、过滤。 oIdentity: 至少50%. oCover region: 也要超过50%或者蛋白结构域的长度. odomain: 必须要有完整的该蛋白家族的。工具pfamdb (http://pfam./) 和NCBI Batch CD- search. (http://www.ncbi.nlm./Structure/bwrpsb/bwrpsb.cgi). oEST 支持 o Blast and Hmmer同时检测到 4、通过上述操作获得某家族的所有成员 基因家族分析(二) 本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。 一、构建进化树的基本步骤 1、多序列比对. Muscle program. 2、Model 选择. 分别针对蛋白序列和核酸序列的模型选择程序。ProtTest program for protein and ModelTest or Jmodetlest for DNA(http://user.qzone.qq.com/58001704/blog). 3、算法选择。三种. NJ, ML and BI. 4、软件选择。MEGA (bootstrap least 1000 replicates), phyML and Mrbayes (http://user.qzone.qq.com/58001704/main). 5、进化树修饰. MEGA: view->options and subtree-> draw options. Also can be decorated in word (http://user.qzone.qq.com/58001704/main) 二、具体步骤 2.1 多序列比对。一般采用muscle。因为 MUSCLE is one of the best-performing multiple alignment programs according to published benchmark tests, with accuracy and speed that are consistently better than CLUSTALW. 2.2 模型选择。 对于用蛋白序列构建进化树的可以采用下面命令: java -Xmx250m -classpath path/ProtTest.jar prottest.ProtTest -i alignmfile.phy. 运行结果如下图 注意: 1)“.Phy” format. Only allow ten charaters.注意名字不能重复相同。 2)AIC: Akaike Information Criterion framework. 3)Gamma distribution parameter (G): gamma shape. 3)proportion of invariable sites: I. 2.3 构建进化树 2.3.1 意义: a聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分为 MEKK, Raf and ZIK三个亚家族. b亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近 c 基因家族复制分析。研究基因家族复制事件(duplication events),两种复制事件类型常采用的标准: Tandem duplication: Identity and cover region more than 70% and tightly linked (Holub, 2001). Chromosomal segment duplication: Plant Genome Duplication Database (PGDD: http://chibba.agtec./duplication/) 2.3.2 进化树。 一般ML树比较准确,但应结合方法,如NJ树,相互验证。 2.3.3 进化部分分析:KaKs计算 2.3.3.1 简单的方法. 可以使用下面的网页PAL2NAL(http://www.bork./pal2nal/) 2.3.3.2 标准方法:. a. ParaAT: ParaAT.pl-h test.homologs -n test.cds -a test.pep -p proc –f axt –k -o output b. KaKs_Calculator –m NG(or else) -i test.axt -o test.axt.kaks c.分歧时间计算:Divergenttime(T) calculation. T=Ks/2λ. λ : mean 5.1-7.1×10-9. d. Ka/Ks意义: Ka/Ks=1.中性进化。. Ka/Ks<1.纯化选择。For genes that are subject to functional constraint suchthat non-synonymous amino acid substitutions are deleterious and purged fromthe population. Ka/Ks>1.正选择。Positively selected genes and produce fitness advantagemutations to evolve new functions. 基因家族分析(三) 本节主要讲基因结构分析套路 1、Motif分析 使用软件MEME,命令如下: meme sample.fa -dna –revcomp -nmotifs 10 -mod zoops -minw 6-maxw 50>meme_htmlFormat.html 2、基因结构分布图 可以使用在线网站GSDS2.0:website:http://gsds.cbi.pku.edu.cn/ 用法如下: 结果展示 3、基因结构常见统计信息:自己excel或写程序统计 a. The number of intron andexon. b. The splicing intronpattern inculding 0,1,2 phase. c. The marked region. Forexample kinase domain. d. sequence length. e. UTR. 4、启动子分析。 网站:主要做植物的: http://bioinformatics.psb./webtools/plantcare/html/ 注意事项: a. IE brower. b. Only one sequence for oncesearch and the length was limited in 1000 bp. c. DNA sequence origin: 1000 or1500 bp upstream of ATG of one gene. 分析结果: 基因家族分析(四) 今天是基因家族分析类文章最后的一部分,也是一个文章亮点所在的部分,小伙伴们仔细阅读学习吧! 一、转录组及芯片原始数据下载网站 1、 GEO datesets/profile(http://www.ncbi.nlm./gds ).。 用法见下图。GEO数据ID命名规则:GPL->GSE->GSM. GPL: platform GSE: multiple series. GSM: multiple samples. GDS ≈ GSE. Thedifference concentrated on the data labeled GDS can be analyzed for one geneonline. It is simple and easily. The data in the sameGPL can be used to compare inexperiment. 下面是在线分析转录组数据的用法: 2、EBI ArrayExpress(http://www./arrayexpress/) 该数据库下载数据用法如下: 3、PLEXdb(http://www./). 该数据库下载数据用法如下,注意用户名和密码! 4、SRA db(http://www.ncbi.nlm./sra/) 5、DRA db(http://trace.ddbj./DRASearch/) 二、数据处理 拿到原始数据,要进行处理,才能进行后续数据分析。 1、芯片数据。原始数据格式“.cel”格式。以AffyMicroarray数据处理为例讲述主要的命令如下: > library(affy); >library(makecdfenv); >library…… > barleyGenome = make.cdf.env(“barleyGenome.cdf') >mydata <- ReadAffy() ##choose “.cel “ file analyzed. >eset <- rma(mydata); >write.exprs(eset,file='mydata.txt') >design <- model.matrix(~-1+factor(c(1,1,2,2,3,3))) # Createsappropriate design matrix. >colnames(design) <-c('group1', 'group2', 'group3') # Assigns column names. >fit <- lmFit(eset, design) # Fits a linear model for each gene based onthe given series of arrays. >contrast.matrix <- makeContrasts(group2-group1,group3-group2, group3-group1, levels=design) # Creates appropriate contrast matrix toperform all pairwise comparisons. >fit2 <- contrasts.fit(fit, contrast.matrix)# Computes estimatedcoefficients and standard errors for a given set of contrasts. >fit2 <- eBayes(fit2) # Computes moderated t-statistics and log-oddsof differential expression by empirical Bayes >topTable(fit2, coef=1,adjust='fdr', sort.by='B', number=10) # Generates list of top 10 ('number=10')differentially expressed genes sorted by B-values ('sort.by=B') for firstcomparison group. >write.table(topTable(fit2, coef=1,adjust='fdr', sort.by='B', number=500),file='limma_complete.xls', row.names=F, sep='\t') # Exports complete limma statistics table forfirst comparison group. >results <- decideTests(fit2,p.value=0.05); vennDiagram(results) 2、转录组数据处理。原始数据格式为sra或fastq格式。Sra可以转换为fastq然后运用下面的命令进行处理。 1)获得cleandata; fastx_clipper :clip adapter. fastq_quality_filter: base quality control. fastq_quality_trimmer: trim 5’ low quality bases. 2)计算RPKM. bowtie2-buildpath/db.seq path/db tophat db read.fastq bam_filter path/accepted_hits.bam samtools view -h -o output-uniq.sam output_uniq.bam excel for calculation(low frequencyreads ≤5 were omitted ). 3)差异表达的基因。 寻找存在差异表达的家族成员,推测其可能的功能。有下面两种分析策略,均可采用。 a.倍数法。对于基因家族分析,可以采用倍数法,以2倍为标准,得到上调和小的基因 b.CV值。计算某个成员在不同处理下的基因表达变化。CV =SD/mean.Used in differenttissues or organs anlysis. |
|