分享

生物信息小知识

 生物_医药_科研 2019-04-13
read :(专业:)高通量测序时,在芯片上的每个反应都会读出相应的一条序列,是比较短的,叫read。
(理解:)reads是原始的数据;raw_reads是测出来的未被clean的reads;raw_reads(raw_data)经过clean之后就变成了clean_reads(clean_data)。

contig:(专业:)很多的reads通过重叠片段(overlap),能够组装成一个更大的片段,这个更大的片段就是contig。
(理解:)通过软件/或其他工具,把有overlap的reads整合到一起,形成的较长序列,就得到了(有 overlap的reads)的一个contig 。

scaffold:(专业:)(基因组de novo测序)通过reads拼接的到contigs之后,往往还需要构建paired-end库或Illumina Mate-pair库,以获得一定大小的片段(如:3kb、6kb等)两端的序列。基于这些序列,可以确定一些contig之间的顺序关系,这些先后顺序已知的contig就组成scaffold。
(理解:)借助于pairend的信息,将相关的(一对)sontigs连起来,中间未知的基因用N表示,这样的到的序列,成为scaffold。

Unigene:(专业:)即unique gene sequence collection——unigene是以自动化的方式,对于每一个新进入到genebank的序列,进行序列相似性的分析,如果可以找到可能来自于同一个基因的基因簇(cluster),则将此序列归入到这一个基因簇,如果找不到,则成立一个新的基因簇。

contig N50: (专业:)reads在拼接之后会获得一些不同长度的contigs。我们将所有的contig的长度相加,获得一个所有Contig的总长度。然后将所有的contig按照长度从大到小的顺序排列,得到contig_1,contig_2,contig_3...contig_n, 再将contig按照这个顺序依次相加,当相加的长度达到总长度的一半时,最后一个加上的contig的长度就是Contig N50 。
(理解:)如果contig1+contig2+contig3<1/2(contig总长);但是contig1+contig2+contig3+contig4>=1/2(contain总长);那么contig4的长度就是contig N50 的值。

注意:
一个contain被组装出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;
多个contains组装成scaffold之后,鉴定发现它是编码蛋白质的基因,叫unigene;
一个unigene不一定代表一个contain,一个unigene可以有多个contigs。



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多