分享

Omics精进09|mRNA生信分析常规流程

 医学abeycd 2021-10-19

本文介绍「mRNA生信分析流程」图片


mRNA生信分析速览

mRNA生信分析主要包含以下各部分。图片

mRNA分析详细步骤

数据质控及过滤

FastQC数据质控

关注测序数据的碱基质量、GC比等,见上图红框部分内容,一般会看一下几个图如,「重点图1」图片图片 「重点图2」图片图片图片更多戳:http://www.bioinformatics./projects/fastqc/good_sequence_short_fastqc.html

cutadapt数据过滤

去文库构建时加入的接头、reads两端低质量碱基、含N碱基、去短的reads。

参考基因组比对

利用转录组比对软件,将上一步得到的clean reads与对应物种基因组比对。转录组「比对软件」,可选择HISAT2或STAR或TopHat(按需选择),三者差异:

  • HISAT2比对速度是STAR的2.5倍,是TopHat的100倍;
  • 相比于STAR和TopHat,STAR允许更多的soft-clipped事件和错配,会得到更多比对reads;

「比对的作用」:1、评估文库构建的质量(文库构建时随机打断,如果文库优质,打断随机性好,比对时会发现reads均匀分布在基因组上);2、评估mRNA测序是否有意义(理论上reads应主要比对到CDS_Exons ,原因如下图,CDS_Exons占据mRNA绝大部分)。

转录本组装

「组装原因」,由于二代测序读长限制,必须把mRNA打断成小片段进行测序,组装的目地就是利用生信方法重新拼接全长转录本。「主流组装软件」「Stingtie」「Cufflinks」,两种软件差异:

  • StringTie比Cufflinks更为准确和灵敏;
  • StringTie的速度比Cufflinks快;
  • StringTie组装的转录本的数目比Cufflinks多;

基因表达量分析

  • 基因表达量即在当前研究条件下,一个细胞中、或者是一定摩尔量的 RNA中某个特定基因比对上了多少条转录本(绝对定量,需要知道细胞个数)或者比对上转录本的比例(相对定量),更直接一点讲就是比对上reads的count数;
  • 基因表达量与「基因长度」「测序深度」成正相关:一个样本中,A基因越长,建库时被随机打断的片段越多,被测序的概率越大,比对到A基因的reads就越多;不同样本中,样本的测序深度越高,A基因被测到的次数越多,比对到A基因的 reads 就越多。所以,直接数reads来算表达量的方法是有问题的,有TPM/FPKM/RPKM三种标准化方法,将reads数除以基因长度,测序深度来校正二者对表达量影响。

TPM、RPKM、FPKM区别

  • TPM/FPKM/RPKM三种标准化方法差异:
  • 「TPM」(Transcripts PerKilobase Million)

Xi,比对到基因i上的read数Li,基因i的长度(所有外显子长度的总和)Xi/Li,i基因校正后的reads数,使用基因长度校正每个基因的reads数「i基因的TPM即」,i基因长度校正后的reads数 「/」 样本所有基因长度校正后reads数之和

  • 「RPKM」(Reads Per Kilobase Million)

「i基因的RPKM即」,i基因长度校正后的reads数 「/」 样本所有基因reads数之和也就是一个样本中一个基因的RPKM等于落在这个基因上的总的read数(total exon reads)与这个样本的总read数(mapped reads (Millions))和基因长度(exon length(KB)) 的乘积的比值。

  • 「FPKM」(Fragments Per Kilobase Million)

FPKM与RPKM的区别名称中即可知,FPKM将Reads数换成了Fragments数(下图为reads和Fragments区别),对于SE测序策略,FPKM等价RPKM;对于PE测序策略,FPKM使用Fragments计算;图片

表达量分析

虽然认为TPM更准确,但是由于三者可相互转换,所以都在用。根据关注点不同,可以使用不同的软件组合:

  • 关注已知和新转录本定量,可用Cufflinks或StringTie;
  • 关注转录本水平定量,可用RSEM或eXpress直接将reads比对到参考转录本;
  • 不经过比对的定量,节省计算资源,可用SailfishSalmonquasi-mappingkallisto;

基因差异表达分析

「转录组分析的重要目标」就是找case组和control组样本之间差异表达的基因;差异表达分析依赖上一步所获的各基因表达量;分析工具有很多,根据「依赖技术」可划分为:

  • count-based 方法,可用DESeqlimmaedgeR;
  • assembly-based方法,可用CuffdiffBallgown;
  • alignment-free方法,sleuth;

根据「有无生物学重复」,无生物学重复可用DESeq,有生物学重复可用DESeq2;

差异基因KEGG|GO富集分析

评估差异基因主要影响的生物学功能和通路。

KEGG(Kyoto Encyclopedia of Genes and Genomes)

找差异表达基因主要显著影响了哪些「生化代谢途径和信号转导途径」

GO(GENE ONTOLOGY)

找差异表达基因主要富集在哪些GO term(分子到生物过程,分三类:molecular function、cellular component、biological process)中,评估「差异表达基因与哪些生物学功能显著相关」,对生物学功能起上调还是下调作用。

基因融合分析

两个或多个基因的CDS首尾相连,共享同一套调控序列形成新的基因,即为基因融合事件,可发生在基因组和转录组水平,如下图。图片转录组和基因组层面融合差异(https://www.cnblogs.com/aipufu/p/11615336.html)

基因融合的鉴定,可以基于全基因组测序数据(whole-genome sequencing,WGS),也可以利用转录组测序数据(RNA-seq),或者二种技术结合起来更好。「WGS鉴定出的基因融合」,基本能确定是由于基因组层面发生某种变异而引起的,但如果没有转录组测序数据,就无法准确判断融合后产生的新基因是否能够表达,或表达量的高低。而「转录组测序数据鉴定出的基因融合」,可以明确是能表达的基因融合,但却无法完全确定是否是由基因组变异产生的,还是来源于两个不同基因转录后发生的RNA融合。因此,如果条件允许,同时结合全基因组测序和转录组测序来鉴定基因融合,能够获得更准确的鉴定结果。

「研究意义」:一些癌种的诱因,与癌症发生息息相关,前面文章中Gene panel设计时,gene fusion也是一类重要变异,如下图文(融合基因VS肿瘤)图片基因融合与靶向药图片基因融合生信分析可用「STAR」分析,其他软件如下图。图片「基因融合事件发生主要机制」:易位,插入,颠倒,见下图图片

可变剪切分析

「研究的意义」:关注文章'施一公:人类已知的遗传疾病里,大约35%来自于剪接遗传’,如很熟悉的脊髓性肌肉萎缩(SMA)、阿兹海默症、地中海贫血症等。
可变剪接发生在转录过程的pre-mRNA和mature mRNA之间,RNA剪接体移除内含子,外显子以不同数目重新整合(如下图),产生多个转录本,多个转录本翻译成不同蛋白,使得蛋白丰富多样。图片生信分析时可用ASprofile对StringTie组装的转录本进行可变剪切分析,统计「可变剪切事件类别和表达量」,常见的可变剪切事件类别如下图,包含外显子跳跃、内含子延伸、5' 端或3' 端等。图片

Reference

  • Conesa A , Madrigal P , Tarazona S , et al. A survey of best practices for RNA-seq data analysis[J]. Genome Biology, 2016, 17(1):181.
  • http://www.bioinformatics./projects/fastqc/good_sequence_short_fastqc.html
  • 公众号文章:RPKM, FPKM, TPM有什么区别?
  • https:///article/view/2693
  • https://www./
  • https://www./subject/bieeqhtx.html
  • http://tech.sina.com.cn/2017-10-29/doc-ifynhhay8118096.shtml
  • https://www.cnblogs.com/aipufu/p/11615336.html
  • 「https://www./articles/nrc3947」
  • https://academic./nar/article/44/5/e47/2464672

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多