长序列注释工具:Long Read Annotation (LoReAn)

微笑如酒 2018-02-18

展开全文

题目
Long Read Annotation (LoReAn): automated eukaryotic genome annotation based on long-read cDNA sequencing

Abstract

全长cDNA测序可以通过揭示转录本结构和替代剪接形式来帮助进行基因组注释，但目前的注释的pipeline并未包含这些信息。在这里，我们提供LoReAn（Long Read Annotation）软件，是一种利用短和长读取cDNA测序，蛋白质证据和从头预测的自动化注释流水pipeline，以生成准确的基因组注释。基于对两种真菌和两种植物基因组的注释，证明LoReAn通过整合从PacBio或MinION测序平台产生的单分子cDNA测序数据，并正确预测基因结构并捕获其他注释pipeline漏掉的基因，更加优于目前流行的注释工具。

Background

文章balabla说了很多，但核心信息就是很少注释工具现在可以充分利用全长cDNA测序进行注释，所以就导致了需要新的注释工具 LoReAn。

Design and implementation，讲述该工具的核心原理。

LoReAn可以分两个阶段进行概念化。第一阶段涉及基于从头开始和基于证据的预测的基因组注释。LoReAn的第二阶段通过利用新方法重建全长转录物将单分子cDNA测序与第一阶段的注释结果相结合。具体每一个阶段怎样操作，大家可以看下面的流程图。说白了，第一阶段就是我们比较经典的预测方法，杂合不同的evidence进行预测。然后，第二个阶段就是这个工具的亮点，能够利用其它工具不常使用的长cDNA测序。最后将两个阶段结果糅合，得到最佳结果。

Results
好，说了这么多，那你也要用事实说明啊。然后开发者从几个角度验证这个工具是比较牛逼，比其他注释工具要好。

LoReAn 能够产生最准确的注释

研究者进行了重对单倍体真菌Verticillium dahliae (轮枝菌大丽花)进行重注释，然后对比不同注释工具（MAKER2,CodingQuarry, BRAKER1, Augustus and two from GeneMark-ES）的结果在这些方面（exact matches to either genes, transcripts or exon locations）。然后通过两个三个值来（敏感性，特异性，准确性）比较所得到的结果和还有原有的reference。如下表，当然LoReAn是有最好的表现了。

名称解析：
敏感性：多少ref上的注释是被准确预测到
特异性：多少预测是在ref上
准确性：敏感性和特应性平均值

然后，读者又用了一个不需要rely on reference 的方法来验证。将来自注释输出的预测内含子的位置与来自长读数和短读比对到的数据进行推断内含子的位置进行比较。然后发现，使用非部分或部分掩蔽的基因组的LoReAn输出具有最高的完全匹配内含子准确性。

LoReAn能够预测最多的高度可信的基因

文章说，常用的方法，使用精确匹配基因结构来鉴定独特的编码序列可能是误导性的，因为两个基因预测可以编码相同或相似的蛋白质而没有完全相同的结构。为了产生独特的蛋白质编码差异的更具生物学相关性的比较，我们使用orthoMC将每个注释的翻译蛋白质序列分组为同源组。使用这些组，我们确定了单个注释pipeline所特有的蛋白质编码序列，称为singletons。如下图，也是LoReAn最好。