分享

基因组survey中的神助攻——K-mer分析

 我是皮卡丘 2021-11-24

为什么做K-mer分析


对于高等真核生物(特别是高等植物)来讲,它们的基因组一般比较复杂,通常伴随着较高的杂合度或者重复序列等,进行基因组De novo也并非一件容易的事情。特别是进行高精细基因组图谱的构建时,只基于常规DNA文库的二代测序根本无法满足需要,还需结合三代测序、BioNano、Hi-C数据等才可获得高质量的基因组。

相对而言,这时的测序成本也会是相当大的一笔开销,需要谨慎对待。因此在对高等真核生物进行全基因组De novo之前,我们需要设法提前获知该物种基因组特征的一些信息,为后续的测序方案、基因组组装方案、基因组结构注释等提供参考依据。

这种情况下,我们一般会在基因组大规模测序或者正式组装之前,首先构建DNA小片段文库进行中低深度的二代测序,使用PE文库测序所得的reads信息进行基因组Survey分析以初步评估基因组特征。基因组Survey分析的核心内容即为k-mer分析使用k-mer分析可直接在相对较小数据量的二代测序reads水平上进行,对该物种基因组大小、GC含量、杂合度高低以及重复序列比例等进行评估。

K-mer定义:


mer : 分子生物学领域中意义为:monomeric unit ( mer) :单体单元,相当于nt或者bp。通常用于双链核酸中的单位,100 mer DNA相当于每一条链有100nt,那么整条链就是100bp。

k-mer是指将reads迭代分成包含K个碱基的序列,一般长短为L的reads可以分成L-K+1个k-mers。

图片
图1 k-mer示意图

例如:一条长为150bp的reads,截取了17bp的碱基序列,那这17个碱基的片段就是17 k-mer,经过迭代选取会产生150﹣17﹢1个k-mer。

K-mer大小构建(如何选择K-mer大小?


(1)查阅文献
(2)用组装效果来测试
(3)将k-mer设置为奇数,多测试几次,如:设置K-mer=17,19,21,23,25,27分别计算基因组大小,查看重复序列或杂合度。

基因组大小估算


二代测序后产生了n_r个reads,可知所有的k-mer总数为:n_a=(L﹣K﹢1)*n_r

通过观察k-mer分析的k-mer频率分布图(图1),可以得到k-mer深度期望,记为d_k

因此可以计算基因组大小:

图片

由于k-mer中还有一些错误序列,因此在估算基因组大小的时候要考虑去除误差

重复率估算


理论上单拷贝序列的k-mer一般都分布在2倍主峰之前,2倍主峰之后出现的k-mer被认为是重复序列,所以我们取峰值2倍后的k-mer为重复k-mer,从而得到重复k-mer的总数记为T(T,相当于重复序列的k-mer总数,即2倍深度后的k-mer频率乘以k-mer数的总和;或者是在分布图中的2倍峰后面的总面积,纵轴为k-mer数),从而可以计算出重复序列的长度为:

图片


因此重复率为:

图片


因此基因组中的单拷贝序列长度为:U=G﹣R

杂合率估算


假设基因组中的杂合率为h(每个碱基为杂合点的概率),对于一个k-mer,它是纯合k-mer的概率为:P1=(1﹣h)k

则它是杂合的概率为:P2=1﹣P1=1﹣(1﹣h)k

因此,在二倍体中单拷贝区域的同源区域,会产生U*P2个杂合k-mer。

杂合的k-mer数可以通过计算得到:只要统计非重复k-mer的总数,记为UtUt可以从分布图中计算面积得出),Ut-U即为产生的杂合k-mer数。

因此,Ut﹣U=U*P2=U*(1﹣(1﹣h)k)


已知Ut、U、k,从上面等式中即可解出h,也就是杂合率。

简单基因组survey分析图


在理想状态下,k-mer曲线服从泊松分布,即只会出现一个明显的主峰。因此,当基因组中不存在杂合区和重复序列,或者杂合度较低、重复序列在整个基因组中占比较少时,通常会看到如下图所示的K-mer频率分布图。但自然界的物种经过亿万年的进化,基因组复制、杂交等情况多有发生,因此,基因组中往往会含有不同比例的重复序列、杂合位点,使得k-mer曲线不会呈现出良好的泊松分布

图片
图2 简单基因组K-mer频率分布图

从图2中看出,最左侧(Frequency=1、2等起始位置处)出现了很高的值,表明测序结果中存在大量的k-mer仅出现了1-2次,这个在k-mer频数统计表中也可轻易发现。这是因为在实际的二代测序数据中,由于测序错误(如Illumina测序平台的平均错误率约1%)的存在会引入许多带有错误碱基的reads,将这些reads打断成长度为K的k-mer后,会产生许多错误的k-mer

由于测序错误带来的碱基类型是随机的,因此可知这些错误k-mer的出现频数很低,但总数目却非常的多。因此在图2中看出,低频数的k-mer数目占很大的比例,即在Frequency=1、2等起始位置处出现很高的k-mer数目,使得图中曲线峰值高。峰值位置d_k就是k-mer深度期望。物种的二代测序reads数据的k-mer频数分布曲线图中只存在一个明显的主峰,说明该物种个体为纯合体或单倍体,且其基因组构造简单几乎不存在重复序列。

高重复基因组Survey分析图


基因组复制事件会使基因组中产生大量的重复序列。重复序列的存在使得基因组中某一个K的K-mer序列增多,即K-mer的出现频率增加,在进行K-mer分析时,表现为主峰拖尾或在主峰后对应横坐标的整数倍处出现重复峰(图3)。但重复序列的多少并不会影响重复峰的位置,只会削低峰的高度。当基因组中重复序列占比较高时,通常会选取大一点的K-mer以跨越重复序列,提高组装效果。图中,Frequency=55处是主峰,主峰位置之后Frequency=110(约为主峰位置2倍处)及Frequency﹥110后面的拖尾被认为是由基因组中的重复序列导致。

图片
图3 某高重复物种基因组K-mer频率分布图

图3中,在x=a处出现主峰,x=2a处有一个次峰,说明一部分片段出现的期望值是大部分的2倍,这些片段为重复片段,次峰为重复峰。

高杂合基因组Survey分析图


在高杂合基因组中,序列中的杂合位点会使得K-mer分成两个部分,序列中某些碱基的覆盖深度也会相应减半。因此,与纯合序列相比,杂合片段中K-mer的覆盖深度会下降50%,最终在K-mer曲线上表现为:在主峰前对应横坐标的1/2处出现一个小峰,且基因组的杂合度越高,该峰越明显。如下图4所示,Frequency = 90处是主峰,主峰位置之前Frequency = 45(约主峰位置1/2处)被认为是基因组杂合导致的。
图片
图4 某高杂合物种基因组K-mer频率分布图

图4中,在x=2a处出现主峰,x=a处有一个次峰,说明部分片段出现的期望值是大部分的1/2,当序列有杂合时,包含杂合位点的k-mer因为分成了两部分,所以出现频率变为一半,次峰为杂合峰。

高杂合或高重复基因组Survey分析


图片
图5 某高杂合或高重复物种基因组K-mer频率分布图

图5中,分别在x=a、x=2a处各出现一个峰,因两个峰高相差不大,两峰横坐标又是2倍关系,说明该个体高杂合或高重复。


在利用二代数据进行基因组Survey时,借助K-mer分析能够初步获得基因组大小、重复序列比例、杂合度等信息。K-mer分析时,若基因组中含有较多重复序列,通常会在主峰后形成拖尾或在对应的横坐标整数倍处出现重复峰,而当基因组中含有杂合位点时,则会在主峰前1/2位置处形成一个小峰。基因组大小、重复序列比例、杂合度等信息的获得,能够为基因组测序深度、组装软件的选择、冗余去除等生信分析流程提供依据,提升组装基因组的质量。

图片

实用科研工具推荐      
详实生信软件教程分享
前沿创新组学文章解读
独家生信视频教程发布


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多