【原】三个10X单细胞转录组样本CCA整合

健明 2021-07-15

展开全文

前面我在单细胞天地分别介绍了如果因为种种原因仅仅是测了一个样本的10X单细胞，或者走经典的2个样本的10X样本该如何分析，并且辅助自己的生物学故事，如下：

其中，我委婉的指出来了，那个文章对两个两个样本的10X单细胞转录组数据的整合是有问题的，不过他们文章发表期刊是 Immunity影响因子很高，二十多分，其实单细胞对他的生物学故事来说是锦上添花，可有可无，所以我也不想去追究他们了。

现在我们分享一个稍微正确一点的分析例子，发表在NC的文章：B1 oligomerization regulates PML nuclear body biogenesis and leukemogenesis

研究者对3只小鼠进行了单细胞转录组测序，The normal FVB/N mice (termed WT) and the PR and PR F158E transgenic mice at the same age (i.e., 78 weeks) 选择的是商业仪器 10x

多个样本整合

单细胞水平的研究是仅次于NGS的一次生物信息学领域的革命，同样的随随便便发CNS的黄金时期也过去了，现在想发高分文章，拿多个病人的多个样本进行单细胞转录组测序是非常正常的，这篇文章就是3个样本。而且文章写的很清楚：To avoid batch differences, the Seurat alignment method canonical correlation analysis (CCA) 而且可以看到去除样本效应还不错：

其它单细胞样本整合理论详细见：多个单细胞转录组样本的数据整合之CCA-Seurat包

细胞分群

样本整合好了之后的实际分析流程还是5个R包，分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象，：一些单细胞转录组R包的对象而且分析流程也大同小异：

step1: 创建对象
step2: 质量控制
step3: 表达量的标准化和归一化
step4: 去除干扰因素(多个样本整合)
step5: 判断重要的基因
step6: 多种降维算法
step7: 可视化降维结果
step8: 多种聚类算法
step9: 聚类后找每个细胞亚群的标志基因
step10: 继续分类

而这篇文章呢，基本上来说走Seurat标准流程，就可以把细胞分多个cluster，再定生物学功能，结果如下：

granulocyte (clusters 0, 4, 5, 9, 12)
erythrocyte (clusters 1, 2, 3, 6, 7,10)
monocyte (cluster 8),
stem cell (cluster 11)
B cell (clusters13, 14),
dendritic cell (cluster 15)

如下图：

细胞分群后的下游分析

一般来说，需要展示自己对细胞亚群命名的marker基因：

The tSNE plots of the key ma rke rs us ed to identify granulocyte (Ly6g), erythrocyte (Hba-a2), monocyte (Csf1r), stem cell (CD34), B cell (Vpreb3), dendritic cell (CD209a), respectively