分享

宏基因组|使用QUAST对组装结果评价

 生信探索 2024-05-16 发布于云南

QUAST (Quality Assessment Tool for Genome Assemblies) 是一款专门用于评估基因组组装质量的生物信息学软件。QUAST旨在为基因组学研究人员提供一个标准化、全面的方法来评估基因组组装的质量,特别是在完成新的基因组组装后,QUAST被广泛用于比较不同组装软件、不同组装参数或不同测序数据源生成的基因组组装结果。其应用涵盖各种类型的基因组项目,包括微生物、植物、动物、真菌等各类生物的基因组,以及宏基因组和单细胞基因组等复杂数据集。

主要功能与评估指标:

  1. 统计分析: QUAST计算一系列统计指标来描述基因组组装的基本属性,如组装长度、N50值、L50值、最长序列长度、最短序列长度、总碱基数、GC含量等。这些指标有助于直观了解组装的整体结构和连续性。
  2. 基因组完整性评估: QUAST可以通过与已知参考基因组进行比对,评估组装的完整性,包括计算基因组覆盖度、单倍型完整度、重复区域的正确组装情况等。对于没有参考基因组的物种,QUAST也可以利用基因组大小估计、BUSCO(Benchmarking Universal Single-Copy Orthologs)分析等方法间接评估基因组的完整性。
  3. 错误检测与量化: QUAST能够检测组装过程中可能出现的错误类型,如插入/缺失错误(indels)、拼接错误(misjoins)、冗余序列(redundancy)等,并提供相应的量化指标。这有助于用户了解组装中存在的潜在问题及其严重程度。
  4. 三代测序与长片段支持: 针对使用第三代测序技术和产生的长读长数据(如PacBio或ONT),QUAST推出了QUAST-LG版本,以适应此类数据的特性和评估需求,如评估超长contig或scaffold的质量。
  5. 可视化报告: QUAST生成详细的HTML报告,包含丰富的图表和统计数据,便于用户直观地对比不同组装结果,并快速识别出最优或有改进空间的组装方案。

使用方式:

QUAST既提供在线服务,也支持本地安装运行。用户可以将待评估的基因组组装结果(通常以FASTA格式的contig或scaffold文件形式)上传至QUAST在线平台,或者在本地服务器上安装QUAST软件包后执行评估。对于大型基因组项目,由于在线平台可能对输入文件大小有所限制,使用本地安装的方式更为常见。QUAST基于Python开发,依赖于matplotlib等库进行数据可视化。

安装

name: assembly
channels:
  - conda-forge
  - bioconda
  - defaults
  - nodefaults
dependencies:
  - megahit=1.2.9
  - quast=5.2.0

 mamba env create -f assembly.yaml
 mamba activate assembly

QUAST对组装结果评价

quast --threads 96 -o QUAST_out --min-contig 500 final_assembly.fasta

参数


  • —min-contig 500  小于500bp的contig不会被计算在内
  • -o 输出目录

输出

report.txt  assessment summary in plain text format,
report.tsv  tab-separated version of the summary, suitable for spreadsheets (Google Docs, Excel, etc),
report.tex  LaTeX version of the summary,
icarus.html  Icarus main menu with links to interactive viewers. See section 3.4 for details,
report.pdf  all other plots combined with all tables (file is created if matplotlib python library is installed),
report.html  HTML version of the report with interactive plots inside,
contigs_reports/  (only if a reference genome is provided)
  misassemblies_report  detailed report on misassemblies. See section 3.1.2 for details,
  unaligned_report  detailed report on unaligned and partially unaligned contigs. See section 3.1.3 for details,
k_mer_stats/  (only if --k-mer-stats option is specified)
  kmers_report  detailed report on k-mer-based metrics,
reads_stats/  (only if reads are provided)
  reads_report  detailed report on mapped reads statistics.


输出结果表格和html报告详细指标含义看一看下边的链接

左边是组装的基因组的统计结果,图片x轴是每个contig,y轴是长度,按照长度对contig排序

Reference

https://github.com/ablab/quast
https://quast./docs/manual.html

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多