如果一个转录组测序项目只有两个分组,那么简单的单次差异分析即可。但是如果有3分组就麻烦了,简单的理解就是两个处理组去和一个对照组差异,然后这两次差异分析的结果可以去对比一下,比如取交集。如下所示的案例: 实际上,在进行差异分析时,如果有三组数据(组A、组B和组C),不仅仅是上面的两次差异分析这样的可能性。以下是一些常见的比较组合:
选择哪种比较组合取决于你的研究设计、科学问题和统计测试的要求。在进行差异分析时,重要的是要考虑到多重假设检验的问题,因为多次比较会增加发现假阳性结果的风险。因此,可能需要使用适当的统计校正方法,如Bonferroni校正、Benjamini-Hochberg程序或FDR(False Discovery Rate)控制等。 也就是说,每增加一个分组, 可以选择的分析策略就呈几何的增加,非常恐怖!当然了,大部分情况下,数据分析是需要有生物学背景的指导,我们不可能说是为了分析而分析,比如2019的文章:《Genetic pathway analysis reveals a major role for extracellular matrix organization in inflammatory and neuropathic pain》, 虽然是9个小鼠分成3组后取36个样品做转录组测序,也就是说是12个分组,如下所示: 首先是小鼠有三分组, 每个组里面是3只小鼠,一个分组是对照的小鼠,另外使用了两种小鼠模型来模拟疼痛状态,:
然后是涉及到了 小鼠的四个组织(背根神经节、脊髓、大脑和血液):
让我们一起看看文章到底是做了多少差异分析,首先是每种组织里面都是可以做疼痛小鼠模型和正常对照小鼠的差异: 上面的两种疼痛小鼠模型还可以在每个组织里面独立的取交集: 其实这个时候或许mfuzz或者wgcna这样的针对基因进行直接分组的算法可能会好一点,这个文章就没有做,未必就不能作为一个公共数据挖掘的课题啦, 当然了,如果是结合类似的实验设计的单细胞转录组数据就更容易得出有意义的生物学结论了,这一切的前提是有生物学背景而不仅仅是跑生物信息学软件工具啦。 而且,这样的公共数据集理论上是足够多的,因为疼痛研究领域也不小众,比如上面的文章就对比了3个公共数据集:
一个课题可以分析十年送上百个研究生毕业如果真的是从数学角度来看上面的12组的差异分析,组合起来这个课题可以分析十年送上百个研究生毕业。。 常见问题汇总我的转录组实验该设计多少个样本这个取决于你的科学假设,如果你想看药物处理前后的基因全局转录水平变化,简单的设计两个分组,每个分组3个样本就足以发表,也就是说总共6个样品才2400块钱!如果你要做时间序列,做多个处理,另当别论。 做完转录组后差异分析后上下调基因数量很少首先,你需要明白,上下调基因数量是根据你自定义的统计学指标来筛选的,有可能你的分组差异整体来说都不大,但是你给定的阈值很大,那么必然满足你要求的,被筛选到的统计学显著的上下调基因数量很少。要么你降低阈值,拿到更多上下调基因,要么你使用GSEA等全局分析算法跳过自定义阈值卡上下调基因这个环节。 对上下调基因分开或者合并做GO/KEGG等生物学功能数据库注释没有结果你仍然是需要明白,没有结果也是结果的一种,你需要接受这个现实!你可以更改阈值,调整上下调基因数量重新走GO/KEGG等生物学功能数据库注释。或者使用GSEA等全局分析算法跳过自定义阈值卡上下调基因这个环节,直接看整体基因集的变化情况。一定要对数据有足够清晰的认识,才会有各种角度的合理的解释。 转录组标准分析图表那么多我课题不知道如何使用或者用不上绝大部分这个是正常的,毕竟现在一个转录组项目就几千块钱。如果是十几年前你做一个转录组近10万,那些上游分析,软件,参数,质量指标都可以写入文章,火山图,差异基因热图,层次聚类,表达量相关性热图,GO/KEGG数据库注释大家都很陌生。现在都是你的项目结题报告的标准了,并没有太多新颖。很多依赖于转录组的课题其实也就是在附件列出差异基因数量,正文描述你分组后比较得到的通路变化而已。比如下面: 如果想结合公共数据库常规转录组测序项目的必要性年轻的朋友们,不要追热点,沉下心来做科研,单细胞转录组不应该是你课题的全部,他可以是点睛之笔。你错过了仅仅是靠单细胞就可以迅速发CNS的那个时代,不是简单的分群,定义一个新的细胞类型你的课题就结束了,大样本量的单细胞转录组课题消耗经费起码上百万,放弃吧! |
|