在之前的文章中,对motif的几个基本概念进行了简单介绍。一致性序列采用 PFM全称为position frequency matrix, 用于代表motif的碱基分布频数,本身是一个很容易了解的概念,以下图所示的motif序列为例
每行为一种碱基,每一列为motif的一个位置。 在描述motif信息时,除了一致性序列和sequence logo外,PFM矩阵也是一个常见的元素。不同软件会有不同的标准,理解这些格式就是本文的核心内容。 JASPAR是一个常用的转录因子motif数据库,在该数据库中,针对PFM矩阵有多种格式,如下图所示 1. RAW PFM原始的PFM矩阵示意如下 第一行和fasta格式的序列标识符类似, 接下来的4行依次表示 2. JASPARJASPAR格式的PFM矩阵示意如下 和原始的PFM矩阵非常类似,只不过在每行的开头标注了对应的碱基,并且用 3. TRANSFACTRANSFAC格式的PFM矩阵示意如下 采用了TRANSFAC数据库中的文件标准, 4. MEMEMEME格式的PFM矩阵示意如下
不同的软件和数据库对应的PFM矩阵的格式不同,在使用不同软件和数据库时需要注意。 ·end· |
|