分享

生物信息分析中的reads是什么

 昵称46988079 2020-01-12

由于受目前测序水平的限制,基因组测序时需要先将基因组打断成DNA片段,然后再建库测序。reads(读长)指的是测序仪单次测序所得到的碱基序列,也就是一连串的ATCGGGTA之类的,它不是基因组中的组成。不同的测序仪器,reads长度不一样。对整个基因组进行测序,就会产生成百上千万的reads。



测序得到的原始图像数据经 base calling 转化为序列数据,我们称之为 raw dataraw reads ,结果以 fastq 文件格式存储, fastq 文件为用户得到的最原始文件,里面存储 reads 的序列以及 reads 的测序质量。在 fastq 格式文件中每个 read 由四行描述:
  • @read ID

  • TGGCGGAGGGATTTGAACCC

  • +

  • bbbbbbbbabbbbbbbbbbb

  • Single-end(SE)测序:1个fastq文件

  • Pair-end(PE)测序:2个fastq文件分别存放read1和read2的数据

每个序列共有4行,第1行和第3行是序列名称(有的 fq 文件为了节省存储空间会省略第三行“+”后面的序列名称);第2行是序列;第4行是序列的测序质量,每个字符对应第2行每个碱基,第4行每个字符对应的 ASCII 值减去64,即为该碱基的测序质量值,比如 h 对应的 ASCII 值为104,那么其对应的碱基质量值是40。
碱基质量值范围为0到40。下表为 Solexa 测序错误率与测序质量值简明对应关系,具体计算公式如下:

Q = -10 log10P

Solexa测序错误率与测序质量值简明对应关系:


高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;

有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig;

多个contigs通过片段重叠,组成一个更长的scaffold;

一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;
多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多