例子:
@FCC0U6BACXX:6:1101:1418:2067#CTAGTTAT/1
CCGGTAAAGGATCGTATCCTGCGT
+
abbecceegggggiihhhfgihii
关于质量编码格式
质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表:
Phred quality scores are logarithmically linked to error
probabilities
PHRED QUALITY SCORE PROBABILITY OF INCORRECT BASE CALL BASE
CALL ACCURACY
10
20
30
40
50
Phred quality scores Q are defined as a property which is
logarithmically related to the base-calling error probabilities
P.
Q=-10log10P
对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:
Sanger,Phred quality
score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read
data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。
Solexa/Illumina 1.0, Solexa/Illumina quality
score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;
Illumina 1.3+,Phred quality
score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;
Illumina 1.5+,Phred quality
score,但是0到2作为另外的标示,详见http://solexaqa./questions.htm#illumina
Illumina 1.8+
最重要的是通过下面的这个脚本,我知道了我的测序采用的是phred64这个编码。
参考资料:
jiewencai的个人博客
博耘生物
维基百科
|
|
来自: zhuqiaoxiaoxue > 《生物信息学》