科研过程中我们经常会使用Ensembl(http://asia./index.html) 网站来获取物种的参考基因组,其中BioMart工具可以获取物种的基因注释信息,以及跨数据库的ID匹配和注释等。 在参考基因组和基因注释文件一文中有详细介绍如何在Ensembel数据库中获取参考基因组和基因注释文件。(点击蓝字即可阅读) 生信分析中,想要找到感兴趣基因的转录因子结合位点,该怎么做呢? 1. 文件准备首先需要准备以下3个文件,后面两个文件可以在ensembl网站中下载:
2. 什么是bed文件?bed格式文件提供了一种灵活的方式来定义数据行,以此描述基因注释的信息。BED行有3个必须的列和9个可选的列。 每行的数据格式要求一致。 关于bed文件格式的介绍,在https://genome./FAQ/FAQformat.html#format1中有详细说明。 我们需要下载的基因位置信息列表是一个6列的bed文件,每列信息如下:
注:起始位置和终止位置以0为起点,前闭后开。 转录因子结合位点列表是一个5列的bed文件,每列信息如下:
具体内容见后面示例,更方便理解。 3. BioMart数据下载1. 进入Ensembl主页后点击BioMart 2. 使用下拉框- 3. 选择数据库后,点击Filters对数据进行筛选,如果是对全基因组进行分析可不用筛选, 略过不填。 4. 点击Attributes,在GENE处依次选择1-6列的内容,勾选顺序便是结果矩阵中每列的顺序。 5. 如上图中所示,点击results后跳转下载页面,中间展示了部分所选的数据矩阵,确定格式无误后点击GO即可下载。 6. 转录因子结合位点矩阵的下载类似上面,不过在下拉框-CHOOSE DATASET- 选择数据库时,我们选则Ensembl Regulation 93,再选择Human Binding Motif (GRCh38.p12) 7. 在Attributes处选择需要的信息列,点击Results和GO进行数据下载 将上述下载的两个文件分别命名为 基因组中每个基因所在的染色体、位置和链的信息,以及对应的ENSG编号和Gene symbol。 Chromosome/scaffold name Gene start (bp) Gene end (bp) Gene stable ID Gene 3 124792319 124792562 ENSG00000276626 RF00100 -1 1 92700819 92700934 ENSG00000201317 RNU4-59P -1 14 100951856 100951933 ENSG00000200823 SNORD114-2 1 22 45200954 45201019 ENSG00000221598 MIR1249 -1 1 161699506 161699607 ENSG00000199595 RF00019 1 第五列为人中的转录因子,每一行表示每个转录因子在基因组范围的结合位点分布,即其可能在哪些区域有结合motif。这些区域是与TF的结合motif矩阵相似性比较高的区域,被视为潜在结合位点。有程序 Chromosome/scaffold name Start (bp) End (bp) Score Feature Type 14 23034888 23034896 7.391 THAP1 3 10026599 10026607 7.054 THAP1 10 97879355 97879363 6.962 THAP1 3 51385016 51385024 7.382 THAP1 16 20900537 20900545 6.962 THAP1 |
|