轻松get干货—《基因组注释与基因注释原理及常用软件使用方法》

teszsz 2017-02-16

展开全文

基因组注释的背景知识（如何判断基因组的组装结果是否可以进行注释）；
重复序列注释（重复序列注释分类及特点、较常用于注释串联重复序列分析的软件等）；
常见转座元件介绍（LTR、LINE和SINE）；
不同类型重复序列预测方法及分析流程（从头预测软件、同源注释软件）。

（以下内容根据华大基因学院慕序精品在线课程《基因组注释与基因注释原理及常用软件使用方法》整理，未经授权，不得转载）

基因组注释的背景知识介绍

（一）如何判断基因组的组装结果是否可以进行注释？

成功地进行基因组注释的第一步首先要判断基因组的组装结果是否可以进行注释，有以下三个衡量指标：N50、Gap和Coverage。

N50

（1）N50的定义

指基因组组装结果中，一半的scaffolds/ contigs长度都大于这个值。

（2）N50达到多少？我们才可以进行注释？

Contig N50最少要达到物种平均基因长度以上。

Gap

（1）Gap的定义

在测序的时候，由于物种本身的限制，导致基因组有些区域是测不到的，或者因为基因组本身的特点，比如说有可能是高重复或者高杂合，导致基因组上有些序列组装不出来。把测不出来的或者组装不出来的用N去填补，这些填补的区域就叫Gap，Gap越小越少越好。

（2）Gap的统计

统计Gap平均大小和平均个数，通过以上结果来考察组装的结果。

Coverage

（1）基因组的覆盖度

测序获得的序列占整个基因组的比例，基因组的本身应该是多大，我们装出来多大，这样一个比值。我们拿到一个物种，一般会通过流式细胞仪的方式去估计基因组的大小，然后，我们得到组装出来的这个值和估计值的比值，得出来的这个值一般在90%-95%即可拿这个组装的结果去进行后续分析。

（2）基因的覆盖度

我们所组装的序列中，基因被完整组装出来的比例。

（3）如何评估基因覆盖度？

给大家推荐两个软件——CEGMA和BUSCO，CEGMA收集了普遍存在于众多真核生物中单拷贝的基因，我们可以用CEGMA把我们拿到的基因组序列和单拷贝的基因去比较，如果比到，证明这个普遍存在的单拷贝基因被我们组装出来了。通过这样一个比值，我们可以大致判断组装的结果中基因的覆盖度是不是符合我们的需求。另外，BUSCO评估组装完整度，Complete比例尽量达到>80%以上。

（二）基因组注释

（1）基因组注释的定义

指在我们感兴趣的序列上找到生物学信息的一个过程，从这个定义上看，基因组注释是包括两个步骤：

①我们在基因组序列上找到我们感兴趣的、有特定功能的元件，这也是我们平时所说的结构注释（Structural Annotation）;

②找到这些元件以后，我们要发掘这些元件的功能或者它们具有什么生物信息含义，这也是我们平时所说的功能注释（Functional Annotation）。

（2）注释基因组的思路？

以下两大思路：

①De novo(Ab initio)，意思是从头预测，我们根据找到的元件本身的结构特征或者功能特征等等来识别它；

②Homology-based，意思是基于同源性的，我们认为具有序列相似性的元件之间，它们一般具有相似的功能，基于序列的相似性这个思路去找到我们感兴趣的、跟我们已知序列非常相近的一些元件。

如果您想深入学习基因组学前沿技术

请关注华大基因

生物信息学培训系列

基因组学前沿技术专题培训班

举办地点：中国·深圳

培训时间：2017年3月20日-3月24日

（点击此处了解详情）

重复序列注释

重复序列的分类及特点——根据在基因组上的分布方式，可以分为两类：1、串联重复序列（Tandem Repeats(Satellite)）,它是以特定的单元首尾相接排列在基因组上。2、散在重复序列（Dispersed Repeats(Transposons)，TE），它是以特定的单元散在地分布在基因组上。

（一）串联重复序列

串联重复序列的分类

根据重复单元的大小分为Satellite(unit>100bp)、Minisatellite（10bp<><><>

较常用于注释分析的软件

较常用于注释串联重复序列分析的软件：

(1)TRF（Tandem Repeats Finder）：ab initio prediction，从头预测软件，可以机械地统计基因组上哪些序列符合串联重复序列的特征（以特定的单元首尾相接排列在基因组上）。http ://tandem./trf/trf.html

（2）RepeatMasker/ RepeatProteinMask：homology-based，同源注释软件，有自带重复序列库，包含常见真核生物的重复序列。http://www./

（二）散在重复序列

根据散在重复序列，也就是我们常说的转座子，它在转座的过程中是否需要RNA介导分为两类：Class Ⅰ–（Retrotransposon(RNA intermediate)）和Class II – DNA Transposon(non RNA intermediate)。根据转座过程中转座的方式，我们把Class分为Subclass，然后根据插入的机制，把Subclass分为Order（详见下图）。

常见转座元件介绍

我们针对比较常分析的几个转座元件，介绍一下它们的结构特征。

LTR

LTR ——长末端重复序列（Class I，反转座子, 以复制和粘贴的形式），它在植物基因组中比较丰富，含量比较多，同时作为基因组大小序列变化主要的因素。长末端重复序列在转座的时候会在两端形成一模一样比较长的序列，中间部分是ORF，编码转座相关的酶等等。

根据这个结构特征，我们可以分析LTR爆发的时间，因为在转座的那一刻，两端会形成的一模一样序列，但是随着时间的流逝，两端形成的一模一样序列会各自发生突变，时间越长，突变积累就越多，两端序列差异也就越大。我们在测得的物种里面如果找到LTR转座元件，可以通过分析两端序列的差异来判断LTR爆发的年代，这是进化分析比较常见和热门的点。

LINE以及SINE

LINE以及SINE——分别是长散在重复序列/长散在元件和短散在重复序列/短散在元件（Class I，反转座子, 以复制和粘贴的形式），相对LTR，它们在动物基因组中比较常见，含量比较多，尤其是SINE，它在我们测的人的基因组有一个比较常见的子类型叫做Alu，Alu在人的基因组含量比较丰富，多达500,000 份拷贝。

不同类型重复序列预测方法及分析流程

从头预测软件

（1）依据特征的不同，我们把软件分为三大类：ReAS、RepeatScout以及RepeatModeler。这些软件可以把基因组打断为若干个K-mer，通过统计K-mer的频数来判断该段序列是否重复足够次数，从而找到这些重复序列；

（2）基于重复序列特异的结构特征来预测的软件，如LTR FINDER，专门预测LTR转座元件；

（3）通过基因组自身比对的方式来搜寻重复序列，这类常用的软件有RECON、PILER和RepeatModeler。

同源注释软件

常用的有软件有RepeatMasker和RepeatProteinMask，其中，RepeatMasker自带DNA重复序列库，叫做Repbase。

我们在注释一个物种整个重复序列数据集的时候，要综合运用以上介绍的软件，具体思路请见以下图片说明。首先，我们拿到基因组序列以后，先进行Tanderm Repeats预测，可以使用TRF软件；接下来，可以兵分两路，第一路：通过使用De novo软件（比如：LTR-finder，RepeatModeler, RepeatScout，Piler等）去预测该物种本身特异重复序列，然后构建出一个物种本身特异的库；另外一路是，通过RepeatMasker等可以跟已知的重复序列数据库Repbase进行比较，找到已知类型的TEs，然后结合Repbase和TE proteins这两个库，重新应用RepeatMasker进行全基因组的扫描，最后得出的TEs就基本是全基因组上我们找到的比较全面的TE集合。