组学专题-转录组学

微笑如酒 2017-11-01

展开全文

转录组及转录组测序（RNA-seq）

转录组即特定细胞在某一功能状态下所能转录出来的所有 RNA的总和，包括mRNA 和非编码RNA。

转录组测序（RNA-seq）主要通过高通量测序研究特定组织或细胞在某个时期转录出来的mRNA的表达量，进而对相关基因和表型的关系进行分析。

本质上讲RNA-seq就是在用一种新的方法实现“基因决定性状”的经典思路。

在RNA-seq之前用于研究基因组表达分析的主要技术是基因芯片，不过由于高通量测序成本的下降，RNA-seq的运用愈来愈广泛。RNA-seq的技术优势有：

可以直接测定每个转录本片段序列、单核苷酸分辨率的准确度;
灵敏度高，可以检测细胞中少至几个拷贝的稀有转录本;
可以对任意物种进行全基因组分析，能够检测未知基因，发现新的转录本，并准确地识别可变剪切位点及cSNP，UTR区域;
检测范围广，能够同时鉴定和定量稀有转录本和正常转录本。

RNA-seq是需要生物学重复的，至少需要两次生物学重复，3次以上的生物学重复更好。以3个重复为例，加上对照的三个生物学重复，一次RNA-seq需要6个样本。

转录组分析入门

转录组分析是参考菜鸟团团长Jimmy的转录组入门推送门，详细的请参考原文（参考资料2即是）。DNA-seq、RNA-seq等组学分析都是一个系统性的工作，细节也很多，在这里主要是框架的搭建。

1. 计算机资源准备

Jimmy推荐的电脑配置：最好是有mac或者linux系统，8G+的内存，500G的存储即可。如果你是Windows，那么安装必须安装 git,notepad++,everything，还有虚拟机，在虚拟机里面安装linux，最好是ubuntu。

其实很不建议使用windows直接进行RNA-seq，因为虚拟机的稳定性是一个很大的问题，性能和功能都很难保证，以VMware为例，虚拟安装Ubuntu16.04LTS，总是会出现网络连接问题，没有网络连接，连安装分析软件这一关都很难过去。

也可以考虑使用云服务器，亚马逊云服务（AWS）的EC2有一个一年免费使用的活动，详细可以参考罗登的亚马逊云系列文章。

需要安装的软件包括 sratoolkit,fastqc,hisats,samtools,htseq-count,R,Rstudio。软件安装的代码，在生信技能树公众号后台回复老司机即可拿到。

2. 获取测序数据

如果是自己测序，测序数据来自于测序公司。

如果是以文章的数据为素材以用于RNA-seq分析流程的学习的话，也可以在文章中找到测序数据保存位置（如“Data availability”），然后在Methods里面找到使用的软件及参数。

3. 了解fastq测序数据

测序公司给出的测序数据格式是fastq格式的，如果是从文章中获取的数据位置，是在GEO/SRA数据库下载的，需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件，并且用fastqc等软件测试测序文件的质量。

需要理解测序reads，GC含量，质量值，接头，index等概念，了解fastqc得出的全部质量报告。

4. 了解参考基因组及基因注释

在UCSC下载hg19参考基因组，从gencode数据库下载基因注释文件，可以用IGV去查看感兴趣的基因的结构，比如TP53,KRAS,EGFR等等。

ENSEMBL，NCBI也有基因注释文件，也导入IGV看看异同。

5. 序列比对

使用hisat2软件进行比对。直接去hisat2的主页下载index文件，然后把fastq格式的reads比对上去得到sam文件。

接着用samtools把它转为bam文件，并且排序（注意N和P两种排序区别）索引好。

6. reads计数

入门统一用htseq-count，对每个样本都会输出一个表达量文件。

需要用脚本合并所有的样本为表达矩阵。参考：生信编程直播第四题：多个同样的行列式文件合并起来

对这个表达矩阵可以自己简单在excel或者R里面摸索，求平均值，方差。看看一些生物学意义特殊的基因表现如何，比如GAPDH,β-ACTIN等等。

7. 差异基因分析

这个步骤推荐在R里面做，载入表达矩阵，然后设置好分组信息，使用DEseq2进行差异分析，也可以走走edgeR或者limma的voom流程。

8. 差异基因结果注释

选择p<0.05而且abs(fc)大于2为显著差异表达基因集，对这个基因集用r包做kegg>

然后把表达矩阵和分组信息分别作出cls和gct文件，导入到GSEA软件分析。

GSEA分析不同于Pathway 以及GO 富集需要给出差异基因的一个明确的定义(阈值)，例如abs(FC) ≧2.0 & p ≦ 0.05，GSEA不需要指定明确的差异基因阈值，算法会根据实际数据的整体趋势，在表达谱整体层次上对数条基因进行分析。

转录组高级分析

RNA-seq完成后一般都会绘制的结果图有主成分分析图（PCA）、差异基因表达火山图、差异基因聚类热图和差异基因韦恩图，这些结果图在菜鸟团以前的推文中已经说过了（见中心法则-RNA，参考资料4即是），因此就不再重复，下面会说一下RNA-seq的高级分析：

1. 基因共表达网络分析（Weighted Gene Co-Expression Network Analysis, WGCNA）

基因共表达网络是基于基因间表达数据的相似性而构建的网络图，图中的节点代表基因，具有相似表达谱的基因被连接起来形成网络。通过构建基因共表达网络，可以深入探讨基因间的相互作用关系并挖掘核心基因（hub gene）。

案例

神经干细胞具有自我更新能力，能够分化产生神经组织中不同细胞类型的细胞。但成体神经干细胞数量稀少，所处环境复杂，使得在体识别、解析成体神经干细胞的分子特征及示踪成体干细胞的分化谱系面临巨大的挑战。Luo et al (2015)通过对小鼠CD133+ /CD133- 室管膜神经干细胞进行单细胞转录组测序，然后通过构建基因共表达网络（WGCNA）（图1），发现了激活神经干细胞的信号通路，并运用相关实验手段验证了这些信号通路的存在。

2. 基因集富集分析（Gene Set Enrichment Analysis, GSEA）

根据基因功能注释或预实验结果构建目标基因集，将其按照在两类样本中的差异表达程度进行排序，然后检验该基因集是否在排序表的顶端或者底端富集。

该项分析通过检测整个基因集的表达变化，可以在整体水平上全面检测到表达差异不显著但却有重要生物学意义的基因，而无需指定一个差异程度的阈值。

案例

当前对非小细胞肺癌（NSCLC）的预测标记很不理想，迫切需要找到新的诊断和预测标记。Zhao et al. (2016)基于RNA-Seq的GSEA分析揭示了STK39基因的表达与非小细胞肺癌相关的过程和通路显著相关，表明STK39基因参与了非小细胞肺癌的发生和发展，其可作为潜在的生物标记（图2）。