分享

基因家族分析套路(四)

 ndsky 2017-06-05

广告:大家有基因组家族分析的需求,麻烦留言哦,小编会第一时间回复的。



今天是基因家族分析类文章最后的一部分,也是一个文章亮点所在的部分,小伙伴们仔细阅读学习吧!

 

一、转录组及芯片原始数据下载网站

 

 1、  GEO datesets/profile(http://www.ncbi.nlm./gds ).

用法见下图。GEO数据ID命名规则:GPL->GSE->GSM.

GPL: platform

GSE: multiple series.

GSM: multiple samples.

GDS ≈ GSE. Thedifference concentrated on the data labeled GDS can be analyzed for one geneonline. It is simple and easily.

The data in the sameGPL can be used to  compare inexperiment.


下面是在线分析转录组数据的用法:


2EBI ArrayExpress(http://www./arrayexpress/)

 该数据库下载数据用法如下:


3PLEXdb(http://www./).

该数据库下载数据用法如下,注意用户名和密码!


4SRA db(http://www.ncbi.nlm./sra/)

5DRA dbhttp://trace.ddbj./DRASearch/

 

二、数据处理

 

拿到原始数据,要进行处理,才能进行后续数据分析。

1、芯片数据。原始数据格式“.cel”格式。以AffyMicroarray数据处理为例讲述主要的命令如下:

> library(affy); 

>library(makecdfenv); 

 >library……

> barleyGenome = make.cdf.env(“barleyGenome.cdf')

>mydata <- ReadAffy() ##choose “.cel “ file analyzed.

>eset <- rma(mydata);

>write.exprs(eset,file='mydata.txt')

>design <- model.matrix(~-1 factor(c(1,1,2,2,3,3))) # Createsappropriate design matrix. 

>colnames(design) <-c('group1', 'group2', 'group3') # Assigns column names.

>fit <- lmFit(eset, design) # Fits a linear model for each gene based onthe given series of arrays.

>contrast.matrix <- makeContrasts(group2-group1,group3-group2, group3-group1, levels=design) # Creates appropriate contrast matrix toperform all pairwise comparisons.

>fit2 <- contrasts.fit(fit, contrast.matrix)# Computes estimatedcoefficients and standard errors for a given set of contrasts.

>fit2 <- eBayes(fit2) # Computes moderated t-statistics and log-oddsof differential expression by empirical Bayes 

>topTable(fit2, coef=1,adjust='fdr', sort.by='B', number=10) # Generates list of top 10 ('number=10')differentially expressed genes sorted by B-values ('sort.by=B') for firstcomparison group.

>write.table(topTable(fit2, coef=1,adjust='fdr', sort.by='B', number=500),file='limma_complete.xls', row.names=F, sep='\t') # Exports complete limma statistics table forfirst comparison group.

>results <- decideTests(fit2,p.value=0.05); vennDiagram(results) 

2、转录组数据处理。原始数据格式为srafastq格式。Sra可以转换为fastq然后运用下面的命令进行处理。

1)获得cleandata;

    fastx_clipper :clip adapter.

   fastq_quality_filter: base quality control.

   fastq_quality_trimmer: trim 5’ low quality bases.

2)计算RPKM.

    bowtie2-buildpath/db.seq path/db

   tophat db read.fastq

   bam_filter  path/accepted_hits.bam

   samtools view -h -o output-uniq.sam output_uniq.bam

excel for calculation(low frequencyreads ≤5 were omitted ).

3)差异表达的基因。

 寻找存在差异表达的家族成员,推测其可能的功能。有下面两种分析策略,均可采用。

a.倍数法。对于基因家族分析,可以采用倍数法,以2倍为标准,得到上调和小的基因

b.CV值。计算某个成员在不同处理下的基因表达变化。CV =SD/mean.Used in differenttissues or organs anlysis.

 结束了。整个家族分析套路。如有需求,可以留言,帮你快速拿SCI。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约