首先先让我们从大的picture来回顾一下,基因组组装的相关知识。 基因组组装的目的与其成功的决定因素目的:
组装成功的决定因素:
组装中会遇到的“硬问题”一般来说生物体的基因组越简单越好组装,像细菌真菌都比较好组装。那么影响组装的硬问题有哪些呢? 多态性
重复序列
具体例子如下图: 假如reads S和T 在橙色的片段都具有一长串A的碱基,那么组装工具将会很难识别,纠结这两个片段是拥有两个相同copy的重复序列,还是他们本来就是overlap的可以连接起来。这样会造成组装的错误。 这里也顺带简单介绍一下常见的重复序列:
一般长度为500bp左右,人类的基因组大概还有1.5Mbp的这种短的重复片段。
一般长度为1Kbp左右,人类的基因组大概还有1.5Mbp的这种短的重复片段。
可以长至40Kbp或者更多 测序的质量
水平的专业性 需要知道如何安装组装的工具,了解组装工具的工具原理,并且调试组装的相关参数让你组装结果得到最优化,还有选择合适的组装工具,都需要一定的专业水平。 主要的组装算法重叠序列相连 简单来说这种算法就是将所有的reads拿出来,相互比对,找到重叠的reads,然后构建长的连续的contigs,最后再将contigs组在一起形成scaffolds。这个过程可以基于下图来进行总结: De Bruijn 图 或者 k-mer 方法 主要的步骤包括:
大概的过程如下图: 我该选用哪个组装的工具? 目前已经开发了很多不同的组装工具,根据你的物种或者测序技术,可以相应的选择不同的工具,一般来说我们可以这样选择:
上面只是简单通用的推荐,当然如果你是专家,你可能还会使用一些更加个性化的工具方法。 这期介绍就到这里了,希望大家有所收获,组装并没有我们想像中那么难,后面会继续给大家带来组装的实战还有评估等等的教程,敬请大家关注点赞。 参考资料: 1.https://isugenomics./bioinformatics-workbook/dataAnalysis/GenomeAssembly/Intro_GenomeAssembly.html2.https://environmentalmicrobiome./articles/10.1186/1944-3277-10-18 |
|