本文是由比利时列日大学Marc HANIKEN课程整理。陆陆续续交付NE大学1个月完成,根据需要做的内容分为四个部分。 1 目标RNA-Seq的目标是说明如何处理和分析RNA-Seq的数据以识别差异基因(DGE)。 2 数据介绍拟植物南芥的基因型(wt 组织模式和多种体型)在(c)和处理(t)条件下处于下。本样品独立株植物实验) 3 3 次 NextSeq 0 仪器以 4 次重复使用Illumina。集群基因组和芯片组在整个组件中运行,使用中和两个 bp 的 5 个端快速介绍。 。 3 分析数据3.1 查看数据head <your_sample>.fastq ![]() 图像.png
将所有的样本名称拦截一个文件 for f in *.fastq; do echo `basename $f .fastq`; done > samples.ids
3.2 RNA-Seq 数据分析中读取映射的一般考虑
第一部分:3.3 读取映射到参考基因组3.3.1 工具介绍1. 顶帽软件我们将使用流行的帽子,这是将 RNA-Seq 外接阅读与基因组外显子以识别子程序-显式程序的短连接的。更多 TopHat 如何找到连接点的原理: TopHat 可以通过注释的情况下将 RNA-Seq 读取到没有参考基因。这个映射信息,TopHat建立一个可能的剪接连接的数据库,然后将读取映射到这些连接以确认它们。 这一段读到这个标题的机子可能有1个00个遗漏或短问题的外显,但会在最初的象征中将比所有的内容都被更多地漏掉。独立映射这些。 TopHat 两个约定生成可能的剪接点数据库。这种情况,“GTAG”、“GC-AG”和“AT-AG”和“AT-AG”和“AT-AG” AC“通常在其中含有不同品种的标题寻找。第二个来源是“封面年龄的岛屿”的开始,是最终中部的中部地区寻找到的。将这些内含子连接起来的方法。我们只建议第二个选项(--coverage-search)用于将短读取(<45bp)和用户读取(<=1000万)。后一个选项对“GT-AG”内含子之间的比。 Tophat可以使用FASTA,FASTQ(推荐)格式的读取。 想要使用这个软件,首先需要使用一下命令: ![]() 图像.png
Bowtie2用于热门组上的阅读。 蝶领结擅长使用一种超高配的技术,用于与组合工具和排列组合。 Bowtie 2 保持珠宝形状使用组合(基于Browtie 2 对BWT 进行),通常其占用或占用的内存大小。 Bowtie 2 的结构需要占用多少个内存。双端模式。同时可以使用多个处理器来更高的关注度。 Bowtie 2 以SAM 格式输出的其他方式,以SAM格式输出的其他方式,使用授权文件和大量使用同样的工具(SAMtools、GATK 的许可互操作)。Bowtie 2GPLv3 在和下分发,Mac OS X Linux BSD 和它在Windows 下的运行。 Bowtie 2和Bowtie 2和Bowtie BS (这里也叫“集成1 ” sowtie 2和Bowtie BS)通常是比较多种其他学组的,包括变异、RNA-seq、Ch IPeq。工具中,这里有其中一些。 要与 Tophat 的连接点,您首先需要为 RNA-Seq 中的生物体安装蝴蝶结指数。使用 bowtie2-build 很容易自己制造一个。 ![]() 图像.png
Bowtie2 从 bowtie 索引中提取信息,允许确定它是什么索引以及使用什么序列来制造它。 2. GFF/GTF 格式文件通过基因特征(例如外含子/内含子描述格式组的基因组)提供的基因组注释文件,可以帮助通过顶帽在基因组上进行读取映射。 注释文件以 GFF/GTF 提供。 Tophat 使用的基因组注释文件就是 GFF/GTF ![]() 图像.png
GTF(general transfer format)是GFF第二个版本, 3 htseq-count软件给定一个具有组合范围的基因的文件,htseq-count 会计算出有多少读取的特征映射到某个特征列表。 - 在每个情况下,特征通常是每个基因被结合的,其中所有外显子的地方也可以显示子的一个特征,例如,为了检查。对于比较 ChIP-Seq,特征可能是列表中的结合区域。 htseq-count 脚本允许在不同模式之间进行选择。 hts-count 的位置重叠模式的工作原理如下:定义一个集合 S(i) 的位置为我重叠的特征的集合。然后,考虑集合 S,它是(我遍历或读取对中的所有位置)
3.3.2 下载拟南芥参考网址:https://www./(需要注册)
3.3.3 给基因参考建索引使用bowtie2-build。为拟南芥编制索引,花费2分钟 bowtie2-build Arabidopsis.fasta At_ref
检查指数,几秒钟
3.3.4 读取映射内容为存在以逗号隔FA打开的FASTQ或STA格式文件 使用tophat完成一般使用命令: ![]() 图像.png
更多的选择阅读文档 其中: --num-threads 4 ##可以多线程 请注意,所提供的 GTF/GFF 文件的第一个索引(指示特征所在的染色体相列或重叠群的列)的必须与 TopH 的 Bowtie-中的参考值。您可以使用序列匹配检查进行 开始操作软参考链接组基因的FASTA: ln -s Arabidopsis.fasta At_ref.fa
创建简单的索引。立即创建,方便使用所有样本,简单组图 5 分钟
会在transcriptome_data/下产生10个文件 映射阅读,先创建一个模板 tophat -o output_[% basename %] --read-mismatches 2 --min-intron-length 40 --max-intron-length 2000 --num-threads 2 --report-secondary-alignments --no-novel-juncs --transcriptome-index=transcriptome_data/At_ref At_ref [% basename %].fastq
样品创建一个灰
提交任务: for f in `cat samples.ids`
do qsub -pe snode 2 tophat_$f.sh
done
此步骤费用大约 1 小时
对所有的样本进行总结查看 for f in `cat samples.ids`
do head output_$f/align_summary.txt
done
3.3.5 读计数使用htseq-count![]() 图像.png
指定输出任务的一个表,包含功能(这里是由于计算)的计数,然后是特定测点的特殊点,用于未针对特定原因进行的读取。于过滤。情况是: ![]() 图像.png
提示:如果你有特定于链的特定数据,否则请确保你设置的 RNA-Seq 数据不是特定链的协议。-strand=no! htseq-count 有很多选项,请查看链接文档 的 一些选项: -f < sam or bam># 输入文件,sam 或 bam 格式 -s <yes/no/reverse> 读计数模板
运行花费半个小时。 搜索征集统计信息贝壳命令 for f in <your_name>_htseqcount_*.o*; do tail -n 5 $f; done
.组件计算矩阵基因的名字
识数 for f in `cat samples.ids`
do cut -f2 <your_name>_htseqcount_$f.o* > $f.count
done
组件列表和计数
得到这个结果文件,将用于 GE 的统计分析,第二部分: 4阅读到参考组。3.4.1 工具介绍
2组组您需要分析
分析使用每一个脚本:使用对齐的工具进行统计分析。因此,我们将使用对齐的工具来展示
3 3.4 拟拟南芥参考组2。来自Araport,需要登录进行免费注册。再使用以下代码获取。 curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
Araport11_Release_201606/annotation/Araport11_genes.201606.cds.fasta.gz
3.4.索引拟南芥参考组3使用ltrinity的perl命令:align_and_estimate_abundance.pl,可以对所有样本一次完成。 ![]() 图像.png
索引的操作命令
这个过程花费大约5分钟,会生成14个文件,包含.bowtie2 .和.RSEM 3.4.4 对排列和计数使用 ltrinity 的 perl 命令:align_and_estimate_abundance.pl,并使用 RSEM 估计方法 ![]() 图像.png
![]() 图像.png
2建立gene_trans_地图 grep \> Arabidopsis_transcripts.fasta | cut -f2 -d '>' | cut -f1 -d '|' > transcripts.ids
# Let's paste twice this list in the same file
$ paste transcripts.ids transcripts.ids > double_transcripts.ids
$ head double_transcripts.ids
# And apply the following perl one liner to remove the transcript number
# from 1st column
$ perl -nle 's/^(AT\w+)\.\d+/$1/g; print' double_transcripts.ids > gene_trans_map.txt
3、进行地图和计数 align_and_estimate_abundance.pl 命令使用模板:
创建多个样本的sh文件: for f in `cat samples.ids`
do tpage --define queue=smallnodes --define basename=$f --define thread=2 trinity_align_estimate.tt > align_estimate_$f.sh
done
提交任务:
这大概要花90分钟 ![]() 图像.png
![]() 图像.png
3.4.5 生成表达矩阵使用:trinity下的abundance_estimates_to_matrix.pl命令
将 perl /media/vol1/apps/trinityrnaseq-2.2.0/util/abundance_estimates_to_matrix.pl --est_method RSEM trinity_*/*.genes.results --out_prefix <your_name>
大概需要2分钟 该脚本输出多个文件 第三部分: 3.5 差异表达的基因使用R包DESeq2。3.5.1 包介绍详细文档介绍:https:///packages/release/bioc/html/DESeq2.html。 ![]() 图像.png
DESeq2将首先对数据进行建模的例子。 有关每个步骤的详细信息,请参阅相应手册页。调整值的信息,请参见结果手册页。 使用DESeq(object),是一个DESeqDataSet的对象。如:DESeqDataSetFromMatrix。 3 结果名称 返回模型的估计模型(因子)的名称
参数是DESeqDataSet已经在其上调用中以下函数: DESeq 、bino值对比WaldTest或nbinomLRT之一,对比值比较变化 alpha 优化的显着性结束值(默认为 0.)。如果调整的 p 最终值 (FDR) 为 1,则 alpha 应设置为该值。 3.5.2 下载DESeq2library(BiocManager)
BiocManager::install('openssl')
BiocManager::install('RCurl')
BiocManager::install(c('DESeq2','limma','gplots'), force = T)
3.5.3 特征基因表达差异(成对比较)我们将在下面发现的基因需要允许需要的 R 脚本。您在里面按顺序添加每个新步骤。然后,根据 DGE 的治疗类型(Ctrl vs Treat),最后治疗对各个种的类型。基因中必须考虑到这一点。 Step 1. 加载数据并描述数据集
步骤 2. 建立基因型响应分析模型 #Genotype effect
#####
#Load data using the DESeqDataSetFromMatrix command
genotDesign=DESeqDataSetFromMatrix(countData = countData,colData = colData,
design = ~ genot)
#Build model using the DESeq command
genot_DESeq <- DESeq(genotDesign)
#Observe parameters of the model
resultsNames(genot_DESeq)
步骤 3. 使用 PCA 对数据进行汇总统计
Step 4. 建立样本距离的热图 #Build sample distance
sampleDist <- dist(t(assay(rld)))
#Build heatmap
sampleDistMatrix<-as.matrix(sampleDist)
rownames(sampleDistMatrix)<-paste(rld$g_t)
colnames(sampleDistMatrix)<-NULL
colours=colorRampPalette(rev(brewer.pal(9, 'Blues')))(300)
tiff(filename = 'heatmap_sampledist_Treat_root.tiff', width = 1500,
height = 1500, units = 'px', res = 150)
heatmap.2(sampleDistMatrix, dendrogram = 'both', trace = 'none', col = colours,
main = 'Treat Root Sample Distance', margin=c(6, 8))
dev.off()
步骤 5. 识别基因型主动的 DGE
步骤 6。 plotCounts(genot_DESeq, 'AT2G19110', intgroup = 'genot')
第四部分:3.6数据挖掘我们非常容易和我们一起使用 GE 数据集进行的数据接口。 Thalemine 非常容易获得相关数据集的功能。 为了使用这个,我们首先需要从DESeq中
|
|
来自: 菌心说 > 《生物信息学,生信,统计,数据分析》