
前面给大家介绍了 ☞基因预测软件ORFfinder 的网页版本 ORFfinder的网址: https://www.ncbi.nlm./orffinder/ 使用起来还是很方便快捷的,当手上的序列不是很多的时候,完全可以满足分析需求。但是,一旦要分析的序列有成百上千条的时候,这个网页工具就显得有些力不从心了。今天小编在给大家介绍一下ORFfinder的本地版。 小编一向喜欢使用本地版本的工具,在 ☞ DEapp(差异表达分析)本地版——自由飞翔,中我就提到过网络应用的局限性。 这个网站搞不好那天就不存在了(NCBI大概率不会,不过也不是没有出现过无法访问的情况)
服务器搞不好哪天就负载过重down掉了(有可能,有段时间还在募捐) 用的人多了,你的任务还要排队,什么时候排得上谁也说不准 上传文件有大小限制 数据安全性谁也不能保证
废话不多说,我们言归正传。
首先,我们要下载ORFfinder本地版软件,注意这个工具需要运行在Linux系统下,windows不行。打开https://www.ncbi.nlm./orffinder/,红框中就是ORFfinder的下载链接,也指明了是Linux x64位 
点击它,进入如下页面: 
点击下载 ORFfinder.gz即可。 我们创建一个文件夹software,命令是: 然后将ORFfinder.gz拷贝到software文件夹下,通过如下命令解压,然后修改一下ORFfinder的属性,让他可以被执行 gzip -d ORFfinder.gz chmod 777 ORFfinder
关于Linux下的一些常用命令,可以参考 ☞生物信息学Linux入门 关于ORFfinder工具的使用方法,可以点击Parent Directory到上一级目录进行查看。 
CHANGELOG.txt:版本更改日志 FASTA_example.fsa:一个示例的FASTA文件 ORFfinder.asn_spec.txt:感觉没什么用,有知道的小伙伴,可以给小编留言。 USAGE.txt:使用说明 我们下载FASTA_example.fsa和USAGE.txt,也拷贝到software文件夹下面。 最后我们的文件夹下面的内容是这样的。

这里记录下使用过程中必须指定的一些参数,小编添加了一些注释帮助大家理解。其实跟网页版本的参数设置是差不多的。 *** Input query options (one of them has to be provided): //查询文件 -in <File_In> name of file with the nucleotide sequence in FASTA format (more than one sequence is allowed) Default = `' -id <String> Accession or gi number of the nucleotide sequence (ignored, if the file name is provided) Default = `' *** Query sequence details: //查询细节 -b <Integer> //要处理的序列片段的起始地址 默认值= 1 Start address of sequence fragment to be processed Default = `1' -e <Integer> //要处理的序列片段的终止地址(0-到末尾 顺序) 默认值= 0 Stop address of sequence fragment to be processed (0 - to the end of the sequence) Default = `0' -c <Boolean> //暂不可用 Is the sequence circular? (t/f) *** Under development Default = `false' *** Search parameters: //搜索参数 -g <Integer> Genetic code to use (1-31) see https://www.ncbi.nlm./Taxonomy/Utils/wprintgc.cgi for details Default = `1' -s <Integer> ORF start codon to use: //ORF起始密码子使用: 0 = "ATG" only //仅“ ATG” 1 = "ATG" and alternative initiation codons //“ ATG”和其他起始密码子 2 = any sense codon //任何有义密码子 Default = `1' -ml <Integer> Minimal length of the ORF (nt) //ORF的最小长度(nt) Value less than 30 is automatically changed by 30. //最小30 Default = `75' -n <Boolean> Ignore nested ORFs (completely placed within another) //忽略嵌套的ORF Default = `false' -strand <String> Output ORFs on specified strand only (both|plus|minus) //仅在指定链上输出ORF Default = `both' *** Output options: //输出选项 -out <File_Out> Output file name -outfmt <Integer> Output options: 0 = list of ORFs in FASTA format //FASTA格式的ORF列表 1 = CDS in FASTA format //FASTA格式的CDS 2 = Text ASN.1 //文字ASN.1 3 = Feature table //功能表 Default = `0'
下面我们开始实际操作,使用软件自带的FASTA_example.fsa进行测试。 这里需要在前面加"./", 不然会提示"ORFfinder:未找到命令"
./ORFfinder -in FASTA_example.fsa -s 0 -ml 75 -out ORF.out
输出文件内容如下: 
>lcl|ORF5_testseq:5094:5684 unnamed protein product 每条序列的标题中包含了,这个ORF在序列上的起始和终止位置,其实也包含了链的信息。如果起始值<终止值,那么这个ORF在正链上。
>lcl|ORF86_testseq:4345:4166 unnamed protein product 起始值>终止值在负链上。 下面是用网页版的结果,可以看到是完全一致的。 
参考资料: ☞基因预测软件ORFfinder ☞ DEapp(差异表达分析)本地版——自由飞翔 ☞生物信息学Linux入门 为了方便大家交流学习,共同进步,我特地创建了微信交流群
|