1分钟带你了解转录组测序分析常见问题

生物_医药_科研 2019-01-17

展开全文

先进的生物技术和严谨的钻研态度是科研工作者应同时必备的两要素。在高通量测序技术广泛应用于转录组研究的时代，科研工作者不可规避会遇到参考基因组mapping率低、组内样本相关性不好、差异基因阈值筛选、可变剪接事件漏检等常见问题。今天小编将针对性的对相关问题进行解析，为您的科研之路指点迷津。

01、参考基因组比对有时会出现mapping率较低，造成mapping 率低的原因可能有哪些？mapping率低怎么解决？

答：mapping率低的主要原因可能是：① 由于reference组装不好，或者所测物种与reference的亲缘关系较远；② 由于样品的特殊前处理或者相对于参考基因组此样品本身的变异太大，导致mapping率相对较低。有参转录组分析，参考基因组的mapping率通常应为70%以上，若mapping率低于60%可考虑改作无参分析。

02、参考基因组质量不高，对全长转录组注释的影响？ContigN50多少可以满足要求？

答：参考基因组质量不高，存在较多的gap和拼接问题，就会导致基因结构（内含子和外显子）注释的问题，进而导致转录组注释的可变剪切和转录本数目不准确。对组装质量没有明确要求，只能说组装质量越好，转录本注释结果越好。

03、组内某个生物学重复样品与其它相关性不太好怎么办？对文章发表有影响吗？

答：样品间的相关性反应了样品间的相似情况，即不同样品在表达水平的相似度。相关系数越接近1，样品间的相似度越高，样品间的差异基因越少。生物学重复内样品的相关系数大于生物学重复外样品的相关系数。

转录组测序通常要求设置3个生物学重复样本，如果出现某个样品与组内其它样本相关性不好的情况，可将该样本剔除，再进行差异分析。后期再通过生物学验证手段进行生物学验证，不影响文章发表。

04、二代转录组测序reads与基因组比对后，没有相应的注释结果，我们认为是新基因。在NCBI注释后，有些基因显示是参考基因组物种的注释结果，这种基因是新基因吗？

答：新基因预测分析是将测序Reads比对至参考基因组，然后进行拼接，其中一些reads比对到基因间区并且能拼接出完整的开放阅读框，拼接出来的位于基因间区的这些基因即为新基因。预测得到的新基因再进行功能注释，因此注释结果与新基因的鉴定没有关系。

05、基因表达水平的饱和曲线图反应了什么问题？

答：表达水平的饱和曲线图是对定量饱和水平的检查，其反映了基因表达水平定量对数据量的要求。表达量越高的基因，就越容易被准确定量；反之，表达量低的基因，需要较大的测序数据量才能被准确定量。当曲线达到饱和，说明测序数据量已满足定量要求。

06、差异基因筛选阈值为多少？在两个样品间的差异大小怎么判断？

答：用R语言包DESeq2 进行基因差异分析，筛选阈值通常为FDR (false discovery rate) <0.05，log fc="" (fold="" change="" (condition="" 2="" condition="" 1)="" for="" a="" gene)="">1或log FC<>

判断基因的差异显著情况可通过矫正后的pvalue即FDR值来查看，FDR值越小，差异越显著。也可通过|log2Foldchange|来判断差异的大小情况，|log2Foldchange|越大，差异倍数越大。

07、某基因在两个样本中表达量差别很大，却不存在与显著差异的基因列表中，这是为何？

答：差异基因的筛选基于统计学算法，不能直观的通过两个值的大小判断差异基因的是否。

08、聚类分析有什么用途？

答：因为同类的基因可能具有相似的功能，或是共同参与同一代谢过程或细胞通路。聚类分析用于判断差异基因在不同实验条件下的表达模式；通过将表达模式相同或相近的基因聚集成类，从而识别未知基因的功能或已知基因的未知功能。

09、可变剪接事件在三代测序中未检测到，而在二代测序中检测到了的原因？

答：这种现象是可能发生的，因为三代测序的数据量并没有达到饱和，可能会漏测或者对于低丰度的基因不能检测到，二代数据由于数据量达到饱和，因此能检测到更多转录本的信息和相对低丰度的基因。

10、做全长比较转录组的意义是什么？全长转录组为什么推荐“三+二”？

做全长比较转录组的意义在于：

○ 转录组测序是获取物种基因水平表达最为成熟的手段；

○ 可通过直系同源基因来确定无参考基因组或参考基因组不完善的同一科属内不同种的进化地位；

○ 可研究基因组很复杂，或者同一科属内物种差别大，无法通过重测序进行分析的物种转录组；

○ 无需构建群体，可对单独物种进行研究。

推荐“三+二”的原因：

目前已报道全长转录组文章大都采用“三+二”的模式，三代建库测序以检测更准确的结构变异为主，对于有参考基因组物种可以准确检测可变剪切，融合基因，新基因的预测，对于无参考基因组物种提供准确的参考序列，有助于后期差异分析；二代测序转录组研究可以实现较三代更准确的定量。此外“三+二”模式可以利用二代的数据对三代进行校正。

最关键的问题来了，三代全长转录组与二代转录组的区别及优势是什么，请看：

产品内容	Iso-Seq	RNA-Seq
建库策略	大片段文库	小片段文库
是否组装	无需组装	需要组装
差异表达	无法准确检测	可以检测
可变剪切	直接读取	组装预测
融合基因	直接读取	组装预测