分享

NBT|超越busco,完整度评估新工具

 凌恩生物 2024-05-17 发布于陕西

近十年来,基因组发展如火如荼,新技术新软件更是层出不穷。但在基因组质量评估领域,BUSCO可谓独树一帜,长久以来是评估基因组组装和注释的完整性的代表性工具。通过与已有单拷贝直系同源数据库比对获得基因组完整性评价算是基因组领域的基本操作。

而就在今年初,一款新的软件包OMArk横空出世,成为评估蛋白质组质量,检测并改进基因注释过程,为下游分析选择高质量数据的创新方法。该研究成果发表在著名的《Nature Biothechnology》上。

OMArk依赖于查询蛋白质组和生命树中预先计算的基因家族之间的快速、无比对的序列比较,可评估整个基因库相对于密切相关物种的完整性和一致性。与BUSCO软件相比,OMArk可以同时量化编码基因库存在的基因缺失、基因模型定义不准确、非编码序列错误等。OMArk引入了两套评价体系,可以进行基因组完整性(Completeness)和一致性(Consistency)评价,可以获得更清晰的注释质量图片。

图1.OMArk 蛋白质组质量统计汇总

通过将一个物种的翻译基因库(蛋白质组)与OMA数据库中密切相关物种的已知基因家族进行比较来做到这一点。即使查询蛋白质组是新的,也希望它与亲缘关系密切的物种具有高度相似性。通过利用OMAmer的超快序列放置,可以在蛋白质组规模上快速进行比较。OMArk通过量化在查询蛋白质组中发现多少与查询物种来自同一分支的高度保守基因来估计蛋白质组的完整性。OMArk还通过评估查询蛋白质组的蛋白质与其他密切相关物种的蛋白质的一致性来估计查询蛋白质组整体的质量。

图2. OMArk 方法图示

模拟研究证实,OMArk可以准确的估计蛋白质组的完整性并鉴定假蛋白序列和不同的基因模型。此外,还可以优先检测细菌和真菌的污染序列。研究人员使用OMArk对1805个UniProt真核参考蛋白质组进行分析,证明了73个蛋白质组中存在污染,并确定了使用片段化斑胸雀蛋白质组作为参考导致的鸟类基因注释中的错误传播。

图3 对1,805个真核生物UniProt参考蛋白组的OMArk结果。

作为一种评估蛋白质组质量的创新方法,OMArk有助于改进注释过程,尤其是与非编码序列的包含有关的问题。尽管OMArk有潜力改进公开可用的基因组注释,但由于其需要通过将蛋白质组与密切相关物种的蛋白质组进行比较来评估基因注释质量,因此对参考数据库的完善有较高要求,但随着越来越多的数据被添加到参考数据库,OMArk的优势也是显而易见的。

目前该软件包可以通过OMArk Webserver进行在线使用,亦可以使用本地版(下载地址:DessimozLab/OMArk)结合最新数据库进行分析。

这里我们用日本晴Oryza sativa Japonica Group(GCF_001433935.1/)小小的测试一下OMArk在线版,链接如下:

https://omark.omabrowser.org/assess/页面如下:

可以选择两种方式提供蛋白质组的fa文件进行分析:1. 是目标物种的NCBI分类ID,可以直接上传物种蛋白质序列的fasta文件;2.是列出每个基因的所有亚型的文件。实操可以二选一,两种方式均可,点击Submit即可等待结果了。

我们在不同时段测试的日本晴基因组的评价,运行时长5-30min不等。从运行速度上看,小编自己的感受是,相比于BUSCO,OMArk的运行速度还是比较快的。点击提交之后会出现一个等待的界面,如下。

运行结束,即得到下面的结论:

右侧下拉框也会展示更多组装质量评估信息,如下:

整体操作非常便捷,速度也比较快,专注基因组研究的您,也快来试一试这个新的软件包吧!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多