转录调控是一种重要的调控机制,转录因子对基因的表达调控是其中研究的最广泛的一个领域。研究转录因子,最经典的数据库就是TRANFAC数据库,网址如下
该数据库中不仅收录了转录因子和对应的家族信息,也收录了转录因子调控的基因以及转录因子结合位点TFBS等信息。该数据库有以下两个版本
两个版本的比较如下 public版本是免费开工的,但是收录的数据少很多,而且2005年之后就不在更新了。Professional数据多,功能强大,但是收费的。 虽然两个版本数据量不同,但是数据的组织和展示形式是一样的,可以通过Public来了解下其中的信息,使用public数据库是需要登录的,登录之后,可以看到如下的检索页面 public版本中,将转录因子相关信息进行了分类整体,共分成以下6种类型
1. FactorFacto 代表转录因子,每个转录因子的编号以 共收录了73840个转录因子的信息,以转录因子 几个重要标签的含义如下
2. Class转录因子是一种具有调控功能的蛋白质,和蛋白质家族类似,也有转录因子家族的概念,class 代表的就是转录因子家族信息,每个转录因子家族的编号以 共收录了292个转录因子家族,以 几个重要标签的含义如下
3. Matrix转录因子和序列的结合区包含了一个保守的motif,motif代表的是一种碱基模式,代表的是多种碱基序列,示意如下 同一个转录因子,其结合的区域序列尽管不完全一致,但是还是有很多共同的地方,上述13个序列可以用以下序列表示
上述的碱基频数分布矩阵就称之为Position Freuquency Matirx, 简称PFM, 也就是这里的Matrix信息。每个Matrix的编号以 共收录了2328个PFM信息,以 几个重要标签的含义如下
4. Sites
共收录了68408个结合区域信息,以 几个重要标签的含义如下
5. GeneGene代表的就是基因信息,每个基因的编号以 共收录了10653个基因,以基因 几个重要标签的含义如下
6. cell转录因子结合区域的信息是根据某个细胞系的数据计算得到的,cell代笔的就是细胞系的数据表,编号是纯数字的,通过如下方式可以检索到所有信息 共收录了1476个细胞系的信息,以 几个重要标签的含义如下
由于public数据库不开放下载功能,我们只能利用该数据库进行检索。想要更多功能,只能购买Professional版。 ·end· |
|