分享

看Nanopore超长读长如何为高质量基因组组装添砖加瓦

 tyg0705 2017-09-29




听说最近大家的朋友圈被组学君家的Nanopore 两大利器——MinIONGridION刷屏了,组学君的座机(400-027-1221,广告一下组学君专机O(∩_∩)O)也被咨询Nanopore的电话打爆了,大家热情这么高,组学君也不能辜负,于是从未来组最专注的基因组组装方向,为大家整理了几篇已公布的基于Nanopore测序基因组文章,先让大家一睹为快,当然,Nanopore测序到底如何?你不来未来组试试如何知道,组学君等你。



万事开头难,先从模式物种



线虫基因组组装及复杂区域重排检测

Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device


建库信息


(2D) ONT sequencing library(SQK-LSK108),上机4 MinION flowcells(R9.0)48hrs

(1D) ONT sequencing library(SQK-RAD001),上机2 MinION flowcells(R9.3)48hrs

(Figure 1)


Figure1 MinION 测序


下机数据


共下机1.1M reads,read长度最长123,159 bp (平均长度 4,801 bp),其中5.33Gb 1D碱基,其互补链的2D 序列有1Gb,1D 序列比对率为~93%,2D比对率90-95%,其中,3号染色体上有~3M的duplication(chrIII:10,062,096-11,973,739)(Figure 2)。


Figure2 MinION read 比对到参考基因组


组装结果


经Nanopore数据组装可到145 Contigs,Contig N50 = 1.22 Mb,覆盖了参考基因组的99%序列。研究者并用短读长数据做了比较,经Illumina平台的~8.04 G数据,组装得到38,645 Contigs,Contig N50 = ~26 kb。通过MinION 的基因组组装结果,同时还确定了重排和插入的复杂区域结构。



高质量拟南芥基因组

High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell typical consumer computing hardware (4 Cores, 16Gb RAM)


建库信息


1 μg gDNA ,(1D) ONT sequencing library (SQK-LSK108)(~3h),a single ONT MinION flowcell (R9.4) 48hrs


下机数据


平均读长11.4K(N50 7.5 kb),3.4G base-called sequence,平均质量值Q7.3,其中200k以上reads有4条,最长有269K,超过100kb有14条reads,50k以上有2317条reads。


组装结果


文中经多种组装软件测试,其中,minimap/miniasm组装少于1hr,racon (3x)consensus  12 hrs,pilon 进行polish 24 hrs。

ONT minimap/miniasm (ONTmin) 组装得到62 Contigs,ContigN50=12.3 Mb,覆盖了100% (119 Mb) 的非重复序列(Table 1),经BioNano光学图谱数据验证了其高连续性,并经PacBio RSII数据验证其高碱基质量。

最后研究者不忘计算此次Nanopore测序组装项目成本,总共花费了4天时间,以及包括仪器折旧和测序耗材在内1000美金。


Table 1 OxfordNanopore (ONT) 和Pacific Biosciences (PB)组装比较



模式物种搞定,再来点非模式物种



Gb级别番茄基因组组装

Reconstructing the Gigabase Plant Genome of Solanum pennellii using Nanopore sequencing


建库信息


通过2种片段方式建库:

a. 富集长片段(12-80 kb,12-50 kb)建库,(1D) ONT sequencing library (SQK-LSK108),20 μg DNA/library,29 ONT MinION flowcell (R9.4)

b. 未经片段筛选建库,24 μg DNA/2 library,2 ONT MinION flowcell (R9.4)


下机数据


共下机数据131.6G,平均一个Cell 4G产量,passed filter(Metrichor 1.121 base caller) 数据有110.96G(基本上是预估基因组1-1.1G的100X测序量),过滤后的平均Q-score为7.44,在文库优化后,平均读长在6,625-15,869bp间,最长read达153,099bp。


组装结果


提取40%,60%,80%数据量,经miniasm,Canu和 SMART de novo 进行组装测试,并经二代数据polish,其中Canu-SMARTdenovo效果最优:Contig N50 达2.5 Mb(Figure 3)。


Figure3 不同组装策略对比



欧洲鳗基因组快速组装

Rapid de novo assembly of the European eel genome from nanopore sequencing reads


建库信息


在血液和肝脏组织中提取High MW DNA,片段化到20 kb,构建不同文库:

ONT sequencing library (2D:SQK- MAP006),于ONT MinION flowcell(R7.3)上机;

ONT sequencing library (2D:SQK-NSK007和1D:SQK-RAD001),上机MinION flowcells(R9.0);

ONT sequencing library (SQK-LSK108和SQK-RAD002),ONT MinION flowcell(R9.4)。


下机数据


下机数据共15.6G(Table 2),k-mer分析预估基因组~860 Mb,下机数据基本上是基因组18X测序深度。

Table 2 Nanopore测序


组装结果


研究者开发组装新工具TULIP(The Uncorrected Long-read Integration Process),在二代数据基础上组装得到基因组891.7 Mb,Contig N50为1.2M,相对已有短读长组装的基因组草图提升显著。



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多