分享

一表一图,单细胞数据分析的套路

 独行猴 2023-11-02 发布于广东

单细胞测序让我们能够从单细胞层次研究表型、基因表达和相互关系。有了单细胞,甚至所有的课题都值得重新审视一遍!以前的生信分析是装饰,现在的生信分析是刚需;以前的单细胞分析是亮点,现在的单细胞分析是常规!目前,B站、简书和公众号平台有不少单细胞数据分析的教程,各有千秋。但是,关于单细胞数据分析思路的内容相对来说较少。基于此,我们尝试做个总结,供各位参考。

图片

2019年,Fabian J Theis教授团队Mol Syst Biol杂志发表题为Current best practices in single-cell RNA-seq analysis: a tutorial的综述,详细介绍了典型单细胞数据分析的步骤,同时提供了配套代码和示例数据。2023年,Fabian J Theis教授团队又在Nat Rev Genet杂志发表题为Best practices for single-cell analysis across modalities的综述,配有代码 (https://www./preamble.html),对单细胞数据分析流程做了优化。但是,实操中同时使用了R 和 Python,门槛稍高。

图片

那么,单细胞数据分析的策略到底应该是怎样的呢?我们从百奥智汇和玖科医学在知乎的推文中找到了灵感。百奥智汇的推文以单细胞转录组测序的一般流程展开,归纳了单细胞分析的内容和流程,包括细胞质控、批次评估/校正、降维聚类、分群注释、差异表达、富集分析、拟时分析、细胞间相互作用分析和其它深度分析。此外,还有一些深度分析方法可根据特定研究目的进行设计和使用。

图片

⏩获取数据,细胞注释和鉴定

首先是获取数据,自测数据或公共数据;读取后进行细胞注释和鉴定。目前,细胞注释和鉴定最常见的手段就是结合一些marker数据库注释和人工查询相关文献,从文章中获取marker基因对细胞分群进行鉴定,确定细胞类型。

图片

单细胞测序的分析思维导图

常用的marker注释数据库包括:①SingleR是一个用于单细胞RNA测序数据细胞类型注释的工具,使用已知的细胞类型基因表达模式来预测未知细胞类型。②CellMarker是人类和小鼠细胞类型标记物数据库,收集了已知细胞表面分子和转录因子的信息,并提供了细胞类型注释的参考。③Human Protein Atlas是一个用于人类蛋白组学的数据库,其中包含各种组织和细胞类型的蛋白质表达信息,可以用于细胞类型的注释。这些marker数据库的注释可以通过基因名称、蛋白名称或细胞类型进行查询,以获取特定细胞类型的标记物。

每个类群细胞在不同样本中的占比是什么情况,每个类群细胞相较于其他细胞群特异表达或者高表达的基因是什么,每个细胞群处于细胞周期的哪个阶段等等,不同的研究方向有不同的关注细胞群。

图片

单细胞测序的分析思维图 2

⏩鉴定关键细胞群

鉴定完细胞类型后,接下来就是要鉴定目标细胞类群,然后对鉴定的目标细胞群进行深入的研究;一般情况是需要对重点细胞群进行亚分群的,细胞再分群的意义在于进一步分析细胞的组成成分。

怎么样鉴定目标细胞群呢?可以通过研究目的,感兴趣的研究点,细胞组分(占比)在组间的差异去确定;也可以通过一些已知的背景知识去假设;初步的研究重点也可以放在靶向药物所指向的细胞类型中,比如中性粒细胞细胞,T细胞,B细胞等,重点关注XX基因/蛋白/通路的分子变化。

⏩单细胞差异分析

确定了目标细胞类型以后,一般的分析策略是目标细胞群与其他细胞群间进行差异分析。但在实际研究中,往往需要研究两类细胞之间的差异,或者是某类细胞在不同处理样本间的差异基因情况,因此需要将待比较的细胞群单独拿出来进行分析。

除了分析细胞内基因表达的差异,也可以采用最常见的GO和KEGG富集分析,还可以进行GSEA、GSVA、SCENIC等分析,从功能、通路、基因调控网络等方面进行探究。

⏩免疫类群分析

很多疾病的发生、发展都和免疫细胞有关,一般病灶组织内或者附近的免疫细胞较正常的组织会更丰富。为了将疾病中免疫反应描绘出来,可以采用以下分析策略:①对免疫细胞再分群,得到更多功能更加精细化的免疫细胞亚群;②免疫细胞类群在不同分组中的分布变化;③免疫细胞类群拟时序分析,探究不同疾病程度、不同发育阶段或者不同生理状态下的免疫反应机制。
⏩关键细胞的分化轨迹

最开始拿到的单细胞转录组测序数据,并未直接告诉我们每个细胞处在什么状态。因此,需要借助一些分析方法来实现轨迹上的排序,比如Monocle2拟时序分析/轨迹推断,ScVelo RNA速度分析等,推断潜在的细胞分化方向性,挖掘一些稀少的中间状态细胞,解析细胞分化过程中起调控作用的关键基因;也可以比较实验组/对照组中分化的差异。

⏩探索细胞-细胞互作

每个细胞都能分泌细胞因子或者激素,这些细胞因子能够被周围细胞上的受体接收并用于调节相应的生理活动,细胞与细胞之间有相互联系,致病细胞可能是由于大类中某一种亚类细胞分化或者演化过来的;那么这些演化过程可能是由于其他细胞的细胞因子导致的。

在锁定目标细胞类群之后,通过CellphoneDB细胞通讯分析、受体-配体分析等,找到与目标细胞相互作用的其他细胞类型,找到“直接”和“间接”的细胞调控网络。当然,对于已经筛选出目标基因了,也可以通过PPI分析找到基因/蛋白间的互作关系。

⏩挖掘关键调控转录因子

细胞异质性以及这种异质性是如何发展和维持的,在很大程度上是由潜在的基因调控网络决定的,特定转录因子(transcription factor,TF)集合的协同表达驱动各自靶标基因的表达,从而建立特定的基因表达谱;SCENIC是用来研究和破译基因调控的工具,能从单细胞转录组数据中推断TF、基因调控网络和细胞类型。其基本原理是基于共表达和DNA调控保守序列(motif)分析推断基因调控网络,然后在每个细胞中分析网络活性以鉴定细胞状态。

图片

⏩湿实验验证,探索潜在机制

除了以上单细胞测序数据相关分析以外,湿实验验证已逐渐成为单细胞分析的有力补充。比如用RT-qPCR/FISH等在RNA层面进行验证,用WB/免疫荧光/免疫组化/流式分析等在蛋白层面进行验证,还可以利用组织芯片或者TCGA数据库信息,进行临床水平的验证;也可以用细胞谱系示踪技术标记细胞 , 对关键细胞类群及其后代所有细胞的增殖、分化和迁移等活动进行追踪观察等;甚至可以利用流式分选出感兴趣的细胞群,然后对目的细胞群进行基因操作(上调/下调/敲除等),进行更深入的机制研究。总之,根据具体的实验目的,进行更完善的实验设计。

以上内容综合整理自知乎、简书、Github和科学网等公开资料,如有侵权,请联系删改。

参考资料
  1. http:///scServ/9-1361-331.html
  2. https://blog.sciencenet.cn/blog-571917-1321588.html
  3. https://.comzhihuzhuanlan./p/641421589
  4. https://.comzhihuzhuanlan./p/583287704

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多