目的: 在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。 作业: 截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。 回帖到参考基因组RNA-seq 数据分析的通用套路是:
图片源于《RNA-seq Data Analysis》 把高通量测序得到的reads回帖到参考基因组上,既是进行后续基因表达定量和差异表达分析的基础,同时也是可变剪接分析、SNP、InDel分析以及测试数据质量控制的一部分。 回帖到参考基因组常用的软件Bowtie,Bowtie2,tophat2,BWA,HISAT2, STAR等 Bowtie和bowtie2软件的设计目的是进行short reads 的比对,为基因组测序序列的组装而开发(Bwa也是常用的short reads比对软件),在RNA-seq数据分析中也有应用。 Bowtie2的官网介绍:http://bowtie-bio./index.shtml Bowtie和Bowtie2 的主要区别有: 1. 长度大于50bp的reads, Bowtie2更快更精确。而小于50bp的reads,Bowtie1更快更精确。 2. Bowtie2支持的reads长度没有上限,当然reads的长度在50-100bp为宜;而Bowtie1支持的长度上限为1000bp。 3. Bowtie2支持gap,而Bowtie1不支持gap 4. Bowtie2支持局部对比,Bowtie1不支持 5. Bowtie2的比对支持在参考序列中有N,而Bowtie1不支持。 TopHat2软件使用Bowtie2作为比对的引擎,适合长度在75bp以上的reads,准确性强,速度快。但是测序质量低的reads的比对结果会较差,TopHat2还可以用于检测基因组转录位点。 Bowtie2和Tophat2都已经算是即将过时的回帖软件了,现在流行用HISAT2和STAR HISAT2官网: https://ccb./software/hisat2/index.shtml STAR官网: https://github.com/alexdobin/STAR 关于参考基因组关于参考基因组的介绍,推荐阅读生信技能树公众号中Jimmy大神的帖子不可不知的基因组版本对应关系以及【直播】我的基因组(五):测试数据及参考基因组的准备。 总而言之,有三大全文网站提供参考基因组下载,它们分别是:
目前最常用的人和小鼠的参考基因组版本如下(Jimmy总结) 参考基因组及注释信息的下载文章中使用的是GRCh37/hg19参考基因组,注释信息文件版本为CRCh37.70 从UCSC上下载参考基因组 进入UCSC主页:http://genome. 选择 Downloads------Genomic Data 点击 Human 向下拉动,找到 GRCh37/hg19,点击 “Full data set” 先阅读一下各类文件的说明,比如chromAgp.tar.gz是描述测序片段如何组装的文件,chromFa.tar.gz是组装后的序列,每条染色体一个文件(我们要下载的文件),继续向下翻还有关于如何下载的说明。 最后就是可下载的文件: 鼠标悬浮在chromFa.tar.gz上,点击右键,选择“复制链接地址”然后回到Terminal,使用wget或者axel进行下载
注意:Jimmy在《不可不知的基因组版本对应信息》中特别提示:hg19基因组大小是3G,压缩后八九百兆! 下载注释文件 关于注释文件,推荐先阅读Jimmy大神的这篇文章(http://www./thread-30-1-1.html),顺便说一下,几乎所有新手遇到的问题,都能在Jimmy大神的帖子里找到答案! 回过头来继续说注释文件。简单来讲注释文件就是基因组的说明书,告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供,比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。 官网: http://www. 进入官网后直接下载对应hg19的最新人类的基因组注释文件(Data-----Human-----GRCh37-mapped Releases-----选择2016年10月份发布的最新注释版本“ gencode . v26lift37 . annotation . gtf . gz” ),注意注释文件的格式一般是gtf或者gff3格式的,具体可参考@徐洲更和@沈梦圆的笔记。
IGV软件的下载和安装IGV软件全称:Integrative Genomics Viewer 是一个高效的查看基因组数据的可视化软件。 官网: http://software./software/igv/home 下载和安装 点击对应系统按钮下载,解压后,阅读“readme.txt”这个文件,根据文件提示,将解压后的文件夹转移到专门放置软件的目录下(我放在了Biosoft下),在该目录下命令行中运行:
等待一段时间后,会显示IGV的图形窗口,同时还会自动下载一个hg19的参考基因组文件(这是IGV默认的一个hosted genome,储存在Broad研究所的服务器中)。 IGV软件的使用IGV User Guide : http://software./software/igv/UserGuide 生信技能树公众号帖子:《使用IGV看序列比对情况》 以下内容翻译自 IGV User Guide 主窗口布局:
导入参考基因组及注释信息,查看感兴趣基因的结构
IGV提供了多个物种的参考基因组序列,这些序列储存在Board研究所的服务器上。首次打开IGV会默认下载Human hg19参考基因组序列。想查看更多物种的参考基因组信息可以点击箭头,点击“More....”进行选择。
如果hosted genome中没有我们需要的物种的参考基因组,可以自己加载或者导入参考基因组。 加载的基因组文件必须是fasta格式或者IGV.genome格式。 fasta文件必须是纯文本文件,不能是压缩文件,且应当有一个通过Samtools软件生成的.fai格式的索引文件。 如果载入的fasta文件没有索引,IGV会自动尝试对其进行index。
Genomes-----load genoe fom file---选择上述生成的hg19.fa文 files----load fom file----选择上述下载并解压的 gencode . v26lift37 . annotation . gtf文件 提示需要index,点击Go后又提示该GTF文件没有排序,按照提示给出的说明,打开Tools----Run igvtools 在新打开的面板中选择“sort”,并选择 gencode . v26lift37 . annotation . gtf,点击Run。 几分钟后排序就完成了,生成一个 gencode . v26lift37 . annotation .sorted. gtf的文件。 重新导入这个GTF文件并index,就完成了。
批量查看基因的结构可以学习: 批量IGV截图【直播】我的基因组83 手动查找的方法可能有很多,我现在只会一个:NCBI上找基因的染色体信息,然后输入IGV中查看结构 比如EGFR的location是chr7:55019032-55207338,在IGV的工具栏中GO前面的输入框中输入“ chr7:55019032-55207338 ”即可查看该基因的结构 参考阅读:
|
|