评估文库复杂度有不同的算法,除了picard外,还有其他工具可以用,Preseq就是其中最常用的一款工具,文章发表在nature methods上,对应的链接如下 https://www./articles/nmeth.2375
Preseq是一款通用的评估二代测序文库复杂度的方法,官网如下 http:///software/preseq/challenge/
该软件还有对应的R包版本preseqR , 链接如下 https://cran./web/packages/preseqR/index.html
通过对序列进行随机抽样,计算不同抽样数据量下的文库复杂度,然后绘制文库复杂度曲线,以此来评估当前测序量是否满足复杂度的需求,是否需要加测数据量,其用法如下 # 第一步,对bam文件排序 samtools sort input.bam -o input.sorted.bam # 第二步,运行preseq preseq lc_extrap \ -s 10000 \ -o preseq.output.txt \ -B \ -P \ input.sorted.bam -s 指定抽样的reads数目,-o 指定输出结果文,-B 表示输入文件为bam文件,-P 表示输入文件为双端测序,输出文件内容示意如下
以-s 参数的值为步长,计算每次抽样对应的unique fragment数目,以及对应的95%置信区间。对该结果进行可视化,代码如下 输出的图片如下所示 上图实际上是一种饱和度曲线,曲线末端斜率上升越趋近于平缓,说明再增加测序量新发现的fragment也不会多很多,当前测序量已经能够满足要求,如果曲线末端斜率非常陡峭,说明还需进一步增加数据量。
|