SAM是一种序列比对格式标准,由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment/map format。而BAM就是SAM的二进制文件(B取自binary)。 更多资料: http://blog.csdn.net/u014182497/article/details/51691743 一、Sam详解 SAM分为两部分:
注释信息可有可无,都是以@开头,用不同的tag表示不同的信息,主要有
比对结果部分(alignment section),每一行表示一个片段(segment)的比对信息,包括11个必须的字段(mandatory fields)和一个可选的字段,字段之间用tag分割。必须的字段有11个,顺序固定,不可用时,根据字段定义,可以为’0‘或者’*‘,这是11个字 段包括: 1.QNAME 比对片段的(template)的编号;read的名字通常包括测序平台等信息 2. FLAG 位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和; Flag标识对应的情况说明:
256 第二次比对 3. RNAME reference sequence name,实际上就是比对到参考序列上的染色体号。若是无法比对,则是*; 4.POS 比对上的位置,注意是从1开始计数,没有比对上,此处为0; 5,MAPQ mapping的质量;比对的质量分数,越高说明该read比对到参考基因组上的位置越唯一; 6,CIGAR 简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一 个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的; M”表示 match或 mismatch; 7.MRNM(chr) 下一个片段比对上的参考序列的编号,没有另外的片段,这里是’*‘,同一个片段,用’=‘; 8.mate position 下一个片段比对上的位置,如果不可用,此处为0; 9.ISIZE Template的长度,mate position大于POS为正,否则为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0;Inferred fragment size.详见Illumina中paired end sequencing 和 mate pair sequencing,是负数,推测应该是两条read之间的间隔(待查证),若无mate则为0; ISIZE为正,说明amplicon的start 为POS,amplicon 的end为 pos + isize-1 ISIZE为负,说明amplicon的start为mate position,amplicon的end为mate position -isize-1 ISIZE为0,说明无法计算出amlicon的大小 ST-E00144:375:H32VMALXX:2:2117:4878:44152 65 17 41243501 60 150M 1 32799454 0 CGTTCCTCTTTCTTCATCATCTGAAACCAATTCCTTGTCACTCAGACCAACTCCCTGGCTTTCAGACTGATGCCTCATTTGTTTGGAAGAACCAATCAAGAAAGGATCCTGGGTGTTTGTATTTGCAGTCAAGTCTTCCAATTCACTGCA -AFFFAJFJA
10.Sequence 序列片段的序列信息,如果不存储此类信息,此处为’*‘,注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;就是read的碱基序列,如果是比对到互补链上则是reverse completed 11.ASCII read质量的ASCII编码。 12.Optional fields 可选的区域 格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。
参考资料: |
|
来自: BIOINFO_J > 《reads-mapping》