分享

12分钟视频,学会判断DNA测序质量好坏

 微笑如酒 2017-12-26

“外显子组测序、全基因组测序、区域捕获测序,啥样的数据质量好?怎样避免产生不好的数据?”

“Duplicate reads是如何产生的?如何避免?”

“为什么回帖率低?”


听视频,记笔记:

从公司拿到的测序文件长啥样?

fastq文件长这样:

序列回帖前的质控

Q30、duplicate、GC content。其中重复序列比例Duplicates level

  • Duplicated reads:指的是一模一样的序列,这些序列在DNA分析过程中很可能会被去掉;

  • Duplicate reads最好是结合paired-end信息一起看,因为左端可能一样,但右端可能不一样,这样的reads我们不认为是duplicated reads,因为这些reads所对应的fragments是不一样的;

  • DNA fragments打断一般是用超声打断,因为打断位置是随机的,一模一样的reads因此会被认为是被过分扩增产生的冗余信息。

造成duplicated reads的原因

  • PCR bias,由于某个序列被错误的过分扩增,导致duplicated reads变多

  • input DNA的量没有符合建库要求,特别是capture sequencing,你的测序深度越深,所需要的DNA量越多,如果不达标,更多的PCR循环数会将部分DNA反复扩增,导致duplicated reads,冻存样本质量好于FFPE样本

  • 取决于打断方式,超声打断的duplicatedreads应该去掉,酶切有一定偏好性,应综合考虑。

  • 其他原因,包括不同基因组相同的序列打断会增加序列相同的可能,paired-end会避免这部分内容,chr1和chr2相同的序列。

回帖后的质量控制

回帖率、覆盖度、测序深度。其中回帖率mappability

  • 一般bwa回帖率在95-99%以上,而bowtie的回帖率相对低一些,主要是criteria差异,因此bowtie更严格一些,主要用于ChIP-seqmapping,bwa主要用于基因组序列比对。

造成回帖率低的原因

  • 基因中混有其他物种DNA,例如PDX模型,即使mapping上也会增加突变检测的假阳性率

  • 软件的参数设置是否合理,容许mismatch数目和penalty

  • barcode或adaptor是否去掉,RNA序列是否用了DNA的mapping软件。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多