【原】使用Preseq评估文库复杂度

生信修炼手册 2020-01-17

展开全文

评估文库复杂度有不同的算法，除了picard外，还有其他工具可以用，Preseq就是其中最常用的一款工具，文章发表在nature methods上，对应的链接如下

https://www./articles/nmeth.2375

Preseq是一款通用的评估二代测序文库复杂度的方法，官网如下

http:///software/preseq/challenge/

该软件还有对应的R包版本preseqR, 链接如下

https://cran./web/packages/preseqR/index.html

通过对序列进行随机抽样，计算不同抽样数据量下的文库复杂度，然后绘制文库复杂度曲线，以此来评估当前测序量是否满足复杂度的需求，是否需要加测数据量，其用法如下

# 第一步，对bam文件排序
samtools sort input.bam -o input.sorted.bam
# 第二步，运行preseq
preseq lc_extrap \
-s 10000 \
-o preseq.output.txt \
-B \
-P \
input.sorted.bam

-s指定抽样的reads数目，-o指定输出结果文，-B表示输入文件为bam文件，-P表示输入文件为双端测序，输出文件内容示意如下

以-s参数的值为步长，计算每次抽样对应的unique fragment数目，以及对应的95%置信区间。对该结果进行可视化，代码如下

输出的图片如下所示

上图实际上是一种饱和度曲线，曲线末端斜率上升越趋近于平缓，说明再增加测序量新发现的fragment也不会多很多，当前测序量已经能够满足要求，如果曲线末端斜率非常陡峭，说明还需进一步增加数据量。

·end·

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：生信修炼手册 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

生信修炼手册

关注对话

TA的最新馆藏

校准曲线的绘制的小技巧
手把手教你绘制最基础的列线图
文献阅读|Nomograms列线图在肿瘤中的应用
绘制cox生存分析结果的森林图
组间差异分析就要这样可视化！
冲击图和桑基图，傻傻分不清楚！

喜欢该文的人也喜欢更多

热门阅读换一换