写在前面植物小RNA,是本课题组重点关注的领域之一。对于进入本课题组的学生,往往都是从小RNA数据分析开始,逐步进入研究生学习状态。经过课题组内部讨论,我们将在课题组公众号上,分享一些课题组成员的学习笔记或心得。以下,是收到的第一份投稿,作者为课题组研二学生。 前述sRNA序列长度是18~30nt,而小RNA测序产生的序列长度为35nt或者50nt。所以,测序读段包含了3’接头序列。识别和去除小RNA测序数据的接头序列,是开展下游分析的第一步。 如何识别小RNA测序数据接头以下为预测小RNA数据接头并去除的几种方法: 1、用Muscle、Jalview查看接头序列cat SRR1451680.fa | head -n 10000 | tail -n 40 使用muscle软件(http://www./Tools/msa/muscle/)进行序列比对 TGGAATTCTCGGGTGCCAAGGAACTCCAG TGGAATTCTCGGGTGCCAAGGAACTCCAG 2、 CJ命令行
TGGAATTCTCGGGTGCCAAGGAACTCCAG 3、用dnapi.py预测接头InFile=$(ls *.fastq)for i in $InFiledo echo $idnapi.py $idoneSRR1451680.sra.fastqTGGAATTCTCGGSRR6852083.sra.fastqAGATCGGAAGAG 去除接头和低质量序列(接头序列不用给全长,一般6-10bp就可识别) 使用fastx_toolkit或者cutadapter
dnapi的adaptor即muscle比对结果的前12个bp 当然也可以直接用CJ的TBtools中的小工具sRNAseqAdaperRemover,接头预测和去接头一步完成,并且速度很快 java -cp TBtools_JRE1.6.jar biocjava.sRNA.Tools.sRNAseqAdaperRemover --inFqFile $i.sra.fastq --outFaFile $i.trimmed 分析经验分享处理NCBI下载的SRA数据时可能会因为没有注意遇到一些奇怪问题,比如以下两个例子: 1、接头已去除的数据在用TBtools小工具去除菜心的三套SRA数据的接头发现只有一套数据SRR1161445成功了,由于NCBI-SRA中的数据并不一定都是raw data,可能有些用户上传的数据经过了一定的处理,因此这种情况需要查看这些处理失败的数据是否已经去除了接头 用miR156的成熟序列查看接头情况 用保守的miRNA确认数据是否去除接头 2、读段5’端增加了barcode的数据深山南芥的一套数据SRR6294788在处理过程中由于bowtie回帖率低于1%,而去冗余之后的文件很大,考虑可能是去接头的问题,但是查看数据后发现这套数据还在前后各加了4个碱基的随机barcode,去接头后还需要再去掉barcode。 之后在用到这套数据的文章中查找发现确实有4个碱基的barcode
|
|
来自: 长生果与无花果 > 《生物/医学/药物》