【原】如何下载注释文件并查看基因结构

健明 2021-07-14

展开全文

高通量数据下载还能这样操作?
谁能告诉我，这数据测毁了么？

目的：

在UCSC下载hg19参考基因组，我博客有详细说明，从gencode数据库下载基因注释文件，并且用IGV去查看你感兴趣的基因的结构，比如TP53,KRAS,EGFR等等。

作业：

截图几个基因的IGV可视化结构！还可以下载ENSEMBL，NCBI的gtf，也导入IGV看看，截图基因结构。了解IGV常识。

回帖到参考基因组

RNA-seq 数据分析的通用套路是：

检测测序数据的质量，如果需要，对数据进行预处理，去掉接头，去掉质量差的数据等等
将所有数据回帖到genome，根据结果，进行新基因或转录本的鉴定，然后对转录数据进行定量，并进行差异表达分析。也可跳过对新基因和新转录本的分析，只对已知的基因和转录本进行定量。
如果没有参考genome数据，可以供transcriptome数据代替。
如果参考转录组数据也没有，可以直接对RNA-seq数据进行从头组装，注释，作为参考转录组。

图片源于《RNA-seq Data Analysis》

把高通量测序得到的reads回帖到参考基因组上，既是进行后续基因表达定量和差异表达分析的基础，同时也是可变剪接分析、SNP、InDel分析以及测试数据质量控制的一部分。

回帖到参考基因组常用的软件

Bowtie，Bowtie2，tophat2，BWA，HISAT2， STAR等

Bowtie和bowtie2软件的设计目的是进行short reads 的比对，为基因组测序序列的组装而开发（Bwa也是常用的short reads比对软件），在RNA-seq数据分析中也有应用。

Bowtie2的官网介绍：http://bowtie-bio./index.shtml

Bowtie和Bowtie2 的主要区别有：

1. 长度大于50bp的reads， Bowtie2更快更精确。而小于50bp的reads，Bowtie1更快更精确。

2. Bowtie2支持的reads长度没有上限，当然reads的长度在50-100bp为宜；而Bowtie1支持的长度上限为1000bp。

3. Bowtie2支持gap，而Bowtie1不支持gap

4. Bowtie2支持局部对比，Bowtie1不支持

5. Bowtie2的比对支持在参考序列中有N，而Bowtie1不支持。

TopHat2软件使用Bowtie2作为比对的引擎，适合长度在75bp以上的reads，准确性强，速度快。但是测序质量低的reads的比对结果会较差，TopHat2还可以用于检测基因组转录位点。

Bowtie2和Tophat2都已经算是即将过时的回帖软件了，现在流行用HISAT2和STAR

HISAT2官网： https://ccb./software/hisat2/index.shtml

STAR官网： https://github.com/alexdobin/STAR

关于参考基因组

关于参考基因组的介绍，推荐阅读生信技能树公众号中Jimmy大神的帖子不可不知的基因组版本对应关系以及【直播】我的基因组（五）:测试数据及参考基因组的准备。

总而言之，有三大全文网站提供参考基因组下载，它们分别是：

NCBI （https://www.ncbi.nlm./grc）
UCSC (http://hgdownload.soe./downloads.html)
Ensemble （http://asia./index.html?redirect=no）

目前最常用的人和小鼠的参考基因组版本如下（Jimmy总结）

参考基因组及注释信息的下载

文章中使用的是GRCh37/hg19参考基因组，注释信息文件版本为CRCh37.70

从UCSC上下载参考基因组

进入UCSC主页：http://genome.

选择 Downloads------Genomic Data

点击 Human

向下拉动，找到 GRCh37/hg19，点击 “Full data set”

先阅读一下各类文件的说明，比如chromAgp.tar.gz是描述测序片段如何组装的文件，chromFa.tar.gz是组装后的序列，每条染色体一个文件（我们要下载的文件），继续向下翻还有关于如何下载的说明。

最后就是可下载的文件：

鼠标悬浮在chromFa.tar.gz上，点击右键，选择“复制链接地址”然后回到Terminal，使用wget或者axel进行下载

wget http://hgdownload.soe./goldenPath/hg19/bigZips/chromFa.tar.gz
#或者用axel，相比之下axel是真心快啊！
axel http://hgdownload.soe./goldenPath/hg19/bigZips/chromFa.tar.gz
#下载后解压
tar -zxvf chromFa.tar.gz
#解压后可以发现，参考序列是按照染色体号分开列出的，我们还需要把所有的序列写入到一个文件中。
cat *.fa > hg19.fa
#最后删除其他无用的文件
rm chr*.fa

注意：Jimmy在《不可不知的基因组版本对应信息》中特别提示：hg19基因组大小是3G，压缩后八九百兆！

下载注释文件

关于注释文件，推荐先阅读Jimmy大神的这篇文章（http://www./thread-30-1-1.html），顺便说一下，几乎所有新手遇到的问题，都能在Jimmy大神的帖子里找到答案！

回过头来继续说注释文件。简单来讲注释文件就是基因组的说明书，告诉我们哪些序列是编码蛋白的基因，哪些是非编码基因，外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供，比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。

官网： http://www.

进入官网后直接下载对应hg19的最新人类的基因组注释文件（Data-----Human-----GRCh37-mapped Releases-----选择2016年10月份发布的最新注释版本“ gencode . v26lift37 . annotation . gtf . gz” ），注意注释文件的格式一般是gtf或者gff3格式的，具体可参考@徐洲更和@沈梦圆的笔记。

axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
gzip -d gencode . v26lift37 . annotation . gtf . gz #下载后解压
mv #与下载的hg19参考基因组放在一起