分享

读懂测序文件那些事儿

 微微悦明 2021-12-13

真金白银换来的测序文件拿到手,搞不清,读不懂,该怎么办?

今天咱们就来聊聊测序文件那些事儿~~

1

原始测序文件(*.fq或*.fastq)怎么打开呢?

回答,不要试图双击打开,不要在windows系统打开,不要用写字板打开~

为啥呢?

因此原始测序文件一般都是很大很大的~ 一般一个菌的基因组测序文件在1Gb左右,宏基因组测序文件可能更大!如此大的文件,假如在windows系统下打开的话,死机无疑啊~~~

2

正确的查看方式是什么呢?

调用Linux系统,使用More或者head命令查看原始测序文件的一部分。这样既可以查看内容,又不会引起系统崩溃。

如果一定要在本地windows系统打开,且文件又相对较小的话(<10Mb),也不能使用鼠标双击或笔记本等windows自带软件打开。建议安装Editplus或Ultraedit等专业的文本编辑器,使用鼠标右键选择打开方式的方法打开测序文件。

另一种方式,一般伴随着测序文件都会有一些说明文档或统计文件,这些文件是可以在本地直接打开的。

3

拿到的测序文件一般有两种格式(FastQ和Fasta)。这两种有何区别呢?

回答:在对原始测序数据内容的传递上,FastQ和FastA的关系是这样的

FastA文件传递的是序列的名称和序列的内容,而FastQ格式在FastA基础上还额外具有了测序碱基的质量值。

因此,建议保存原始测序数据使用FastQ格式!

最后,拿到测序文件的我们该怎么看呢?

(注:以下内容参考自公众号“生信技能树”,感谢分享!)

Fastq格式

概念

FastQ格式是序列格式中常见的一种,它存储了生物序列以及相应的质量评价,其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

格式说明

FASTQ文件中每个序列通常有四行:

1.第一行:必须以“@”开头,后面跟着唯一的序列ID标识符,然后跟着可选的序列描述内容,标识符与描述内容用空格分开;

2.第二行:序列字符(核酸为[AGCTN]+,蛋白为氨基酸字符);

3.第三行:必须以“+”开头,后面跟着可选的ID标识符和可选的描述内容,如果“+”后面有内容,该内容必须与第一行“@”后的内容相同;

4.第四行:碱基质量字符,每个字符对应第二行相应位置碱基或氨基酸的质量,该字符可以按一定规则转换为碱基质量得分,碱基质量得分可以反映该碱基的错误率。这一行的字符数与第二行中的字符数必须相同。

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:

其中P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为“?”,则在第四行中该碱基对应的质量代表值即为“?”一般地,碱基质量从0-40,既ASCii码为从 “!”(0+33)到“I”(40+33)。以上是sanger中心采用记录read测序质量的方法,Illumina起初没有完全依照sanger中心的方法来定义测序质量,而是把P换成了p/(1-p). 其他完全按照sanger的定义来做。但是他这形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:

Sanger,Phred quality score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。

Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;

Illumina 1.3+,Phred quality score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;

Illumina 1.5+,Phred quality score,但是0到2作为另外的标示,详见http://solexaqa./questions.htm#illumina

Illumina 1.8+

不同版本质量得分与质量字符ASCII值的关系

FastA格式

概念

在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。

格式说明

Fasta格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。gi号后面是序列的标识符,标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。

例子说明

>gi|187608668|ref|NM001043364.2| Bombyx mori moricin (Mor), mRNAAAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCC

大于号“>”开头,来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号后面是序列的标识符,标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,“ref|NM001043364.2|”表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。

微微碎碎念:数据是我们的好助手,摸透它的性格,了解它的特点,才能和它更好的合作。每一天的学习都让我们更了解自己的工作,也更了解自己的数据。

每一天获得一点微小的收获和进步。小确幸的科研也很好。与君共勉!

微信号:

Mypathogen

微微悦明

科学的乐趣是获得新知识的喜悦

高通量测序、大数据

病原微生物检测和监测

健康大数据行业资讯记录与分享

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多