写在前面 相应大家这段时间在论坛或者公众号看到了非常多的转录组学习笔记,没有参与的人肯定感到很困惑,这股学习热潮是啥时候刮起来的。其实早在两个月前我们就有了这个入门计划,见 转录组入门学习小组招募:我也列好了一个详细的大纲指引,基本上按照这8个步骤来,肯定是能入门转录组的基本分析流程的。 PS: 微信公众号推文不允许插入外链,请点击阅读原文查看,慢慢学习,集百家之长。 (1):计算机资源的准备最好是有mac或者linux系统,8G+的内存,500G的存储即可。 优秀作业如下,请大家学习:
(2):读文章拿到测序数据本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件 然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面! 优秀作业如下:
(3):了解fastq测序数据需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc等软件测试测序文件的质量! 作业,理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。 目前优秀作业有:
(4):了解参考基因组及基因注释在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。 作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。 目前优秀作业是:
(5): 序列比对比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。 直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。 接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好,载入IGV,再截图几个基因看看! 顺便对bam文件进行简单QC,参考直播我的基因组系列。 目前优秀作业是:
(6): reads计数实现这个功能的软件也很多,还是烦请大家先自己搜索几个教程,入门请统一用htseq-count,对每个样本都会输出一个表达量文件。 需要用脚本合并所有的样本为表达矩阵。参考:生信编程直播第四题:多个同样的行列式文件合并起来 对这个表达矩阵可以自己简单在excel或者R里面摸索,求平均值,方差。 目前优秀作业是:
这是一个分水岭,后面的分析主要靠R了,前面的分析都最好是在linux系统下面完成,主要是安装软件,下载数据,运行。 有几个笔记不错的整合作业:
(7): 差异基因分析这个步骤推荐在R里面做,载入表达矩阵,然后设置好分组信息,统一用DEseq2进行差异分析,当然也可以走走edgeR或者limma的voom流程。 基本任务是得到差异分析结果,进阶任务是比较多个差异分析结果的异同点。 (8): 差异基因结果注释我们统一选择p<0.05而且abs(logFC)大于一个与众的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析。 然后把表达矩阵和分组信息分别作出cls和gct文件,导入到GSEA软件分析。 最后,把同样的代码实践与其它几篇转录组文章,并且把代码和分析结果发在论坛上面;
|
|