DBSCAN-SWA:一行命令识别并注释溶源噬菌体DBSCAN-SWA: an integrated tool for rapid prophage detection and annotation doi: https:///10.1101/2020.07.12.199018 介绍DBSCAN-SWA是一个结合了具有噪音的密度聚类算法(density-based spatial clustering of applications with noise, DBSCAN-SWA)和滑动窗口算法(sliding window algorithm, SWA)的工具,可以在细菌基因组中识别溶源噬菌体。 DBSCAN-SWA接受multi-FASTA和GBK两种格式的输入。DBSCAN-SWA会对未经注释的multi-FASTA文件进行注释。 之后,DBSCAN算法可以检测噬菌体蛋白质簇,其具有形成溶源噬菌体簇所需的最小数量的类噬菌体(phage-like)基因(设置为6个蛋白质作为默认参数值)和同一簇内两个相邻基因之间的最大空间距离度(设置为3000 bps作为默认参数值),这反映了溶源噬菌体区域内的蛋白质密度。这两个参数是通过使用基于184个人工选择的溶源噬菌体区域的梯度方法,从6到10个蛋白质尝试最小溶源噬菌体大小和从3000到10000 bp尝试蛋白质密度得来的。考虑到来自不同细菌物种的溶源噬菌体的生物学特征可能因情况而异,DBSCAN-SWA支持用户灵活修改DBSCAN的这两个关键参数。 SWA算法被用来扫描基因库文件中与噬菌体相关的特定关键蛋白质,如“蛋白酶(protease)”、“整合酶(integrase)”、“转座酶(transposase)”、“终止酶(terminase)”、“裂解酶(lysis)”、“细菌素(bacteriocin)”和其他关键噬菌体结构基因。在60个蛋白质的移动窗口中至少有6个关键蛋白质的区域被认为是假定的溶源噬菌体区域。 溶源噬菌体区域的边界被确定为第一个和最后一个出现的关键蛋白质的位置。因为整合酶通常在温和噬菌体中编码,通常决定整合位点的特异性,所以将检查假定的附着位点,以寻找含有整合酶的假定溶源噬菌体簇。使用整合酶蛋白作为锚,因为每个簇包含一个整合酶,簇中10个上游和下游蛋白的序列将被提取,以使用BLASTN检测假定的attL-attR对。具有最高位分数和长度> =12 bp的attL-attR对,被认为是溶源噬菌体区域的假定att位点。最后,基于检测到的类噬菌体(phage-like)基因和溶源噬菌体内注释的分类信息,每个溶源噬菌体区域通过多数投票被分配一个分类。 优势效率高(high efficiency) 大约需要1.35分钟~6.8分钟来检测完整细菌基因组中的溶源噬菌体(1.2 Mbp~7 Mbp)。 高召回率(high recall) 获得了100%极好的召回率 适用于高通量测序数据(Suitable for high-throughput sequencing data) 封装良好,易于安装.适用于完整和不完整测序的基因组 提供噬菌体注释(Provide phage annotation) 提供了一个定制的噬菌体数据库,以方便溶源噬菌体区域的注释 用户友好的可视化(User-friendly visualizations) 提供了一个用户友好的交互式超文本标记语言页面,用于在基因组浏览器中浏览溶源噬菌体,并在表格中提供详细的溶源噬菌体信息和细菌-噬菌体相互作用 自由修改的参数(Freely modified parameters) 使用户能够调整类噬菌体(phage-like)蛋白识别、att位点识别和噬菌体注释的参数 安装需要的工具的版本
# 下载DBSCAN-SWA 配置
## 添加环境变量,打开.bashrc文件,添加 使用# 使用dbscan-swa命令 输出文件总结文件总结文件一个概述性的文件,其中包含了bacteria_id, bac_def, genome_size, prophage_end, key_proteins, best_hit_species, CDS_number, attl_region和attr_region这些信息。 prophage文件溶源噬菌体文件主要介绍其中溶源噬菌体的蛋白质的情况,包含了prophage_protein_ID, prophage_protein_product, key_proteins, hit_protein_id, hit_species, identity和evalue这些信息。 prophage DNA序列文件溶源噬菌体序列文件是一个fasta文件,里面是识别为溶源噬菌体的DNA序列。 prophage 蛋白质序列文件溶源噬菌体蛋白质序列文件是一个fasta,里面包含了识别为溶源噬菌体的氨基酸序列。 参考文献Rui Gan, Fengxia Zhou, Yu Si, Han Yang, Chuangeng Chen, Jiqiu Wu, Fan Zhang & Zhiwei Huang. (2020). DBSCAN-SWA: an integrated tool for rapid prophage detection and annotation. bioRxiv, 2020.2007.2012.199018, doi: https:///10.1101/2020.07.12.199018 Github主页:https://github.com/HIT-ImmunologyLab/DBSCAN-SWA |
|