前面我们讲过☞miRNA靶基因预测☜,我们知道miRNA靶基因预测一般是通过seed(种子序列)与靶基因序列互补配对来实现的。有很多本地版本的软件都是基于这个原理来预测miRNA靶基因的,例如☞targetscan☜,miRanda,RNAhybrid等等。这些软件都有本地版本,可以下载到自己的电脑上运行。一般输入都是两个文件,一个是miRNA的成熟体序列,因为miRNA的种子序列一般位于miRNA成熟体5'的2-7位(参考☞miRNA靶基因预测☜),另外一个输入文件就是你要预测的靶基因序列了,这里的靶基因序列可以是mRNA 3’UTR序列,也可以是lncRNA或者circRNA序列。 那么今天我们就来给大家分享一下如何获取miRNA的成熟体序列。首先我们去miRbase(http://www./ftp.shtml)数据库下载目前所有物种的miRNA成熟体序列文件mature.fa。关于miRbase的介绍可以参考☞miRBase数据库介绍及miRNA数据下载☜。 mature.fa打开内容如下 接下来我们给大家分享三种不同的方法来提取感兴趣的物种的miRNA成熟体序列 1. perl语言 #!/usr/bin/perl -w
#打开包含所有物种miRNA成熟体序列的文件 open FILE,"mature.fa"; #新建一个输出文件,保存人的所有miRNA成熟体序列 open OUT,">hsa_mature_seq.fa"; #循环的读取每一行内容 while($line=<FILE>){ chomp($line); #如果某一行匹配>hsa开始,证明这是人的miRNA #如果对其他物种感兴趣,需要知道这个物种的miRNA以什么开头,如小鼠的是mmu if($line=~/(^>hsa.*?) /){ #读取下一行就是对应的miRNA成熟体序列 $seq=<FILE>; chomp($seq); #写到输出文件中 print OUT "$1\n$seq\n"; } } #关掉输入和输出文件 close FILE; close OUT; hsa_mature_seq.fa文件打开内容如下 2. R语言 #安装Biostrings这个R包 BiocManager::install("Biostrings") #加载Biostrings这个包 library("Biostrings") #读取包含所有物种miRNA成熟提序列的文件 mir=readRNAStringSet("mature.fa") #替换序列名字,只保留第一个空格前面的内容 #>cel-let-7-5p MIMAT0000001 Caenorhabditis elegans let-7-5p #替换之后变成了>cel-let-7-5p names(mir)=gsub(" .*$","",names(mir))
#提取以hsa开头的miRNA,如果对其他物种感兴趣 #需要知道这个物种的miRNA以什么开头,如小鼠的是mmu,人的是hsa index=grepl("^hsa",names(mir)) #提取相应的序列 hsa=mir[index] #写出到human_mature_mir_seq.fa文件中 writeXStringSet(hsa, "human_mature_mir_seq.fa") human_mature_mir_seq.fa文件打开内容如下 3. 利用EmEditor正则表达式来提取miRNA的成熟体序列 |
|