今天是生信星球陪你的第282天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~ 就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~ 这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
依然是很容易上手的小工具 得到了组装的转录本,就可以根据这个去找潜在的生物学相关信息,比如编码区预测、注释等
利用TransDecoder 这个工具可以在转录本序列中寻找潜在的编码区,它先找到长的开放阅读框区域(ORFs) TransDecoder.LongOrfs -t Trinity.fasta
然后根据序列组成打分 TransDecoder.Predict -t Trinity.fasta
结果会得到一些带有transdecoder字符的文件 Trinity.fasta.transdecoder.bed Trinity.fasta.transdecoder.cds Trinity.fasta.transdecoder.gff3 Trinity.fasta.transdecoder.pep Trinity.fasta.transdecoder_dir/ ...
其中最关心的就是:Trinity.fasta.transdecoder.pep ,其中包含了预测的编码区对应的蛋白序列 $ less Trinity.fasta.transdecoder.pep >TRINITY_DN107_c0_g1_i1.p1 TRINITY_DN107_c0_g1~~TRINITY_DN107_c0_g1_i1.p1 ORF type:internal len:175 (+),score=164.12 TRINITY_DN107_c0_g1_i1:2-523(+) VPLYQHLADLSDSKTSPFVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKSFREAMRIG SEVYHNLKSLTKKRYGSSAGNVGDEGGVAPDIQTAEEALDLIVDAIKAAGHEGKVKIGLD CASSEFFKDGKYDLDFKNPNSDASKWLSGPQLADLYHSLVKKYPIVSIEDPFAE >TRINITY_DN10_c0_g1_i1.p2 TRINITY_DN10_c0_g1~~TRINITY_DN10_c0_g1_i1.p2 ORF type:internal len:158 (-),score=122.60 TRINITY_DN10_c0_g1_i1:2-472(-) TDQDKRYQAKMGKSHGYRSRTRYMFQRDFRKHGAIALSTYLKVYKVGDIVDIKANGSIQK GMPHKFYQGKTGVVYNVTKSSVGVIVNKMVGNRYLEKRLNLRVEHVKHSKCRQEFLDRVK SNAAKRAEAKAQGKAVQLKRQPAQPREARVVSTEGNV
这个文件中:header行包含了蛋白的ID信息、原始转录本ID信息、type信息、长度、正负链、打分信息、ORF坐标信息 其中type信息可能会出现: 得到的.pep文件可以用于接下来的同源比对
刚得到转录本时就进行了一次SWISSPROT数据库的比对,目的是找到全长转录本;这里再利用得到的蛋白序列进行同源比对,只不过需要适当降低evalue,因此目前序列较之前转录本少许多 blastp -query Trinity.fasta.transdecoder.pep \ -db mini_sprot.pep -num_threads 5 \ -max_target_seqs 1 -outfmt 6 -evalue 1e-5 \ > swissprot.blastp.outfmt6
另外可以用HMMER进行一个Pfam比对,找到可能的保守结构域 hmmscan --cpu 5 --domtblout TrinotatePFAM.out \ Pfam-A.hmm \ Trinity.fasta.transdecoder.pep
可以预测下信号肽、跨膜结构域信息
使用signalp 预测信号肽 signalp -f short -n signalp.out Trinity.fasta.transdecoder.pep
看下结果 $ less signalp.out ##gff-version 2 ##sequence-name source feature start end score N/A ? ## ----------------------------------------------------------- TRINITY_DN19_c0_g1_i1|m.141 SignalP-4.0 SIGNAL 1 18 0.553 . . YES TRINITY_DN33_c0_g1_i1|m.174 SignalP-4.0 SIGNAL 1 19 0.631 . . YES
使用wc -l 可以看预测了多少的信号肽 还可以使用tmhmm 预测跨膜结构区域 关于各种预测的软件信息:http://www.cbs./services/software.php
去简书,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步。
|