转录组测序(RNA-Seq)作为研究基因表达的利器,是发掘基因功能的重要途径。随着RNA-Seq技术的普及,那么问题来了,很多不了解RNA-Seq的小伙伴,在点开结题报告的一瞬间,是不是满脑子的问号,不知所措呢? 没关系!我们懂你!不了解RNA-Seq?不会看结题报告?莫慌,我们来给大家理头绪、划重点!
首先,可将整个结题报告分成四个主要模块。 图 1 转录组测序结题报告主要模块
差异基因的鉴定与功能富集分析是构成转录组文章的主体,数据挖掘与分析也是基于这两个模块进行,是结题报告的重心。接下来详细告诉大家每个模块需要关注的重点内容。 原始数据整理与质量评估 数据量的大小与测序质量的好坏是评判测序数据可靠性的重要标准。 ▶ 数据量 一般用Bases或Raw data表示,对于绝大部分物种来说,转录组测序6G数据量即可,若想获得更多低丰度基因的信息,可适当增加测序数据量。 ▶ 数据质量 主要包括碱基质量与碱基含量。Illumina官方的碱基质量评价标准一般为Q30(即碱基错误识别率为0.1%),Q30的值越大越好,一般不能低于80%。碱基含量即ATGC四种碱基所占的比例,除了前几个碱基位置之外,4种碱基的含量线条应平行且接近。 图 2 测序质量评估
差异基因表达鉴定 看基因的表达量与鉴定差异基因是做转录组测序的主要目的,生物学重复之间的相关性高低与差异基因鉴定的准确性息息相关。 ▶ 样品相关性检验 一般以矩阵图与PCA分析图展示。在矩阵图中基因表达相近的样品会被聚到一起,生物学重复间相关系数越高越好,低于0.8表示相关性较差。PCA分析图更加直观,可以把基因表达相关性好的样品展示到一起。 图3 样品相关性检验
▶ 差异表达基因的鉴定 在这里可以看到各个处理组与对照组之间基因的上、下调表达的信息。从中查找所关注基因的表达情况。显著差异基因判定标准:|log2 Foldchange|>1;P value < 0.05。若差异基因数目太多或太少,可以适当调整阈值范围,不过P value值要严格小于0.05才有意义哦! 图 4 差异基因鉴定 ▶ 基因表达量聚类分析 样品间表达量相关性高的基因会被归为一类,这些基因通常在某些生物过程、某个代谢或信号通路存在实际的联系。 图 5 差异基因heatmap图
差异基因功能富集 功能富集分析将差异基因进行功能富集分类,找到显著富集的功能类与通路,研究与生物学现象的关联。 ▶ GO(Gene Ontology)数据库将功能基因定义为三大类:分子功能(Molecular Function),生物过程(biological process)和细胞组件(cellular component)。每个大类下的基本单元为GO terms。通过P value< 0.05筛选出差异基因显著富集的terms,以期获得差异基因的功能与生物学现象之间的联系。 图 6 GO功能富集分析 ▶ KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是系统分析基因产物在细胞中的代谢途径以及这些基因产物功能的数据库,有助于把基因及表达信息作为一个整体的网络进行研究。用P <0.05筛选出显著富集的通路,进而查找与研究相关的生物学途径。在代谢通路图中,差异基因映射的位置会用彩色标示出来(红色:上调基因;绿色:下调基因;紫色:上调+下调基因)。 图 7 KEGG代谢通路富集分析 基因结构分析 二代测序由于测序读长较短,因此重点关注基因的表达量,结构分析为辅助分析,若要重点研究基因的结构信息,需要三代全长转录组测序哦~ 以有参转录组为例,结构分析包括新转录位点分析、UTR(非翻译区)优化、AS(可变剪切)、SNP(单核苷酸多态性)与InDel(插入或缺失)分析等。 ▶ 新转录本位点分析 同一个基因由于剪切形式的不同,会形成多种转录本,以基因组为参考,对基因的已知与未知的转录本进行统计,基因的表达量与不同转录本的表达量有关。 ▶ UTR分析 将 CDS 上下游的 Reads 覆盖区域作为候选 UTR 。与已有的 UTR 注释信息比较,新发现的 UTR 可以优化基因结构,完善基因注释信息。 ▶ AS分析 同一个基因存在不同的剪切模式,极大的增加了编码基因的能力和容量。对可变剪切事件的类型与数量进行统计。不同的剪切方式可使同一个基因可以产生多个不同的成熟mRNA, 最终产生不同的蛋白质。 ▶ SNP与InDel分析 前者为碱基的变异,后者为碱基的插入或丢失,都属于遗传变异,不同的基因分型,可以用来开发遗传标记。 图 8 转录本结构分析 希望此文可以帮助更多刚开始接触转录组测序的小伙伴快速入手转录组数据的分析。有任何疑问都可以联系我们哦,派森诺竭诚为您服务! 派森诺生物
|
|