分享

bigSCale,大规模单细胞测序数据分析利器

 yjt2004us 2018-06-19

bigSCale: an analytical framework for big-scale single-cell data

2018.5.3


西班牙研究人员在Genome Research上发表了一个用于对单细胞进行大规模分析的工具-bigSCale,该工具包括对成千上万的细胞进行降维,聚类,差异分析,鉴定每个细胞群体的特异表达基因等。随着单细胞测序技术的火热,现在产生了越来越多的单细胞测序数据,比如各种人类细胞图谱计划等,bigSCale的产生使得研究人员不再惧怕大型数据分析带来的各种挑战。

下面我们来看一下整个文章的分析结果:


bigSCale的分析框架

scRNA-seq数据在基因表达谱中会呈现出很多噪音,包括扩增偏差,测序深度差异等,bigSCale因此建立了一个概率模型,用来定义细胞间的表型距离。

1,为了产生这个模型,转录组表达高度相似的细胞被归为一组,这一过程也叫做preclustering,这样分出的每个group中的细胞被认为是生物学重复,后续用来评估技术噪音。在进行preclustering的时候需要先对表达谱进行标准化处理,包括(1)将reads或者UMI按照library size进行标准化,(2)对标准化的表达值进行log转化,(3)将每个基因的表达值进一步标准化到相同的间隔,(4)计算细胞间的皮尔逊相关系数,利用ward's linkage进行层次聚类,确保高度相似的细胞被聚到一个group。然后组内表达差异被用来估计噪音,bigSCale会给每个基因一个P值,代表细胞与细胞间表达变化的可能性。

2,差异基因分析时,bigSCale会给每个基因一个P值,表示两组细胞表达变化的可能性。bigSCale会对进行比较的两组细胞进行所有细胞对的比较,在任意两个细胞进行比较过程中,重复出现的差异基因会进行累计得分,这些得分最后矫正成P值。

3,进行细胞聚类时,计算所有细胞对的距离,产生一个距离矩阵,进而把细胞归到不同组。在进行聚类计算的时候bigSCale选取的是那些变异度大的基因,一些相关系高的基因,孤立的基因,或者与性别相关,与细胞周期相关的基因都被剔除。

4,鉴定出cell cluster之后,下一步就是进行迭代的差异分析,寻找能代表每一个cell cluster的基因marker

5bigSCale具有极高的处理速度,能够直接分析高达100000个细胞的数据。

鉴定差异表达基因

为了评估bigSCale在寻找差异基因方面的表现,研究人员对1920个来源于四个综合征患者(WB,Dup7,注:这些患者在chr7特定区域有连续多个基因发生缺失或者扩增,这些基因是否能检出可以用来评估算法敏感性)的细胞和735个来源于健康捐赠者的细胞利用不同算法(bigSCale, monocle2, BPSC, SCDE等)进行差异分析。对WB1患者进行分析,分析结果显示bigSCale12个下调基因的检出具有最高敏感性(图A),同时它检出的基因数也最多(图B)。在对剩下三个患者的分析中,bigSCale依然表现很佳(图C),在差异基因分析方面优于其他方法。之后研究人员又通过分析simulated data sets(包括不同数据量间的比较等)来比较bigSCale和其他工具在寻找差异基因方面的表现,同样bigSCale在敏感性和特异性方面要优于其他工具(图E, F)。而且在分析速度等方面也要优于其他工具(图H, I)。

 

细胞聚类和亚群maker鉴定

为了评估bigSCale在细胞类型,亚群鉴定中的表现,研究人员分析了Zeisel2015年发表的文章中用到的3005个来自大鼠躯体感觉皮质和海马体的细胞,跟Zeisel研究结果一致,bigSCale能够分出所有主要的脑细胞类型,即躯体感觉锥体神经元,不同类型的CA1/2椎体神经元,中间神经元,星形胶质细胞等(图A)。在分析脑细胞群间差异表达基因时,bigSCale分析出来的差异基因是ZeiselBackSPIN分析出来的差异基因的四五倍,而且bigSCale分析得到的每个细胞亚群的基因标志物更为特异(图B)。

  

将大的数据集卷积成iCells

为了分析成千上万的细胞,bigSCale根据利用模型处理过的表达谱将单个细胞卷积成iCells。为了确保卷积策略不会影响细胞表型,研究人员通过分析20000个脑细胞来评估bigSCale的表现。研究人员将这些细胞进行不同程度的卷积(4587-2102 iCells),比较卷积前后细胞亚群分类的变化。这里研究人员是利用Rand index(RI)来衡量分类相似性(RI=100%表明分类完全一样),他们观察到卷积前后细胞分类具有很高相似性(RI>80%)(图A),当增加cluseter数量或者卷积程度,RI指数都区域平稳,表明bigSCale在降低细胞数的过程中具有鲁棒性。

 

分析1306127个大脑皮层细胞

这是目前为止最大的scRNA-seq数据集,庞大的数据量阻碍了详细的数据分析。研究人员认为他们的bigSCale非常适合分析此类数据,可以对细胞类型细胞状态等进行深入分析。

首先研究人员利用他们的卷积策略将数据大小从1306127个细胞降低五十倍,变成26185iCells。对这些iCells聚类生成16cell populations(图AB),找到16242个差异表达的markers,再将这16populations分成4个主要的细胞类型:非神经元的(1-4),神经祖细胞(5-8),胶质细胞(9-11)和有丝分裂后期神经元(12-16)。之后研究人员就将他们找到的细胞类型和marker去跟别人研究结果进行比较,印证bigSCale分析的可靠性。总之就是分析结果很可信~~~

 

对高分辨率亚群进行去卷积分析

bigSCale能将一百多万个细胞缩小成几个主要的细胞群体进行分析,同样也可以对一个感兴趣细胞群体中的单个细胞进行分析。在这一部分分析中,研究人员选取的细胞群体为Cajal-Retzius (CR) neurons。到目前为止,人们对CR细胞的表型特征,潜在的亚群分类等仍然不太清楚。为了揭示CR细胞的多样性,研究人员将480Reln-positiveiCells去卷积成17543Reln-positive的细胞。对这些细胞进行层次聚类,可以分出8个亚群(图A),对这些亚群进行分析,研究人员认为bigSCale的分析揭示了CR细胞潜在的不同分化阶段(不同分化阶段对应不同的基因表达)。

总之,根据文章介绍,bigSCale就是一个单细胞测序数据分析的神器,既能找差异又能分细胞亚群,傻瓜式操作走起来~~~

附软件链接:https://github.com/iaconogi/bigSCale


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多