分享

pyscenic | 单细胞转录因子分析,原理图文详解

 cmu小孩 2024-05-20 发布于德国

pyscenic做为scenicpython版本,相比R版本实现了分析速度上的巨大提升,尤其是最耗时的共表达网络构建步骤。实测时间如下,数据集1 (4257 cell x 36601 gene),10 cores :grn 网络构建2小时;ctx 网络纯化16分钟;aucell 细胞活性1分钟。另外,数据集2 (45000 cell x 33469 gene),三个步骤的耗时分别为4小时、20分钟、5分钟。

  从上面的流程示意图可知,整个转录因子分析步骤分成Co-expressionMotif-discoveryCell-scoring,分别对应pyscenic软件的三个子命令grnctxaucell

RcisTarget数据库文件下载链接:

测试数据来自《Single-cell RNA sequencing highlights the role of inflammatory cancer-associated fibroblasts in bladder urothelial carcinoma》,从原始数据出发,降维聚类分群后,使用fibo细胞亚群做转录因子分析。

1、grn
  输入表达矩阵和转录因子列表,软件基于共表达构建转录因子与潜在靶基因的调控网络。构建网络的算法可以选择GENIE3GRNBoot2 (默认参数),网络构建涉及随机过程,如果想要复盘时保持结果一致可以设置随机种子。

  另外,表达矩阵的格式可以接受csvloom,如果是csv (rows=cells x columns=genes) 则需要参数--transpose。表达矩阵在整个过程都有用到,为了方便可以使用loom格式。

pyscenic grn --seed 21 --num_workers 10 --method grnboost2 --output fibo_grn.tsv fibo_count.loom allTFs_hg38.txt

2、ctx
  上一步得到了初始的调控网络,这一步基于motif和TF的关系以及motif对基因调控潜能的排序来修剪初始网络。首先,将motif注释到TF;接着,对motif调控的基因排序(feather格式的文件),如果调控网络里面出现靶基因则折线上升,如此就会形成下图所示的曲线图,默认选择所有基因的前5%处 (标虚线的地方) 曲线下的面积计算AUC值,再接着计算一个标准化的AUC值做为NES,默认过滤阈值为3.0;最后,根据三种方式进一步修剪网络:1. thresholds 根据阈值选择motif调控基因排序的前百分比的靶基因,2. top_n_targets 每个TF保留前N个靶基因,3. top_n_regulators 每个靶基因保留前N个TF。此时,得到的TF与靶基因的调控网络叫做regulon (调控子),其中保留的靶基因上游含有motif直接结合的位点。

  其实,不难看出这一步包含的过程比较繁琐,经过各种修剪获得最终的网络。所以,这一步相当重要,可以适当调整阈值得到符合实际需求的网络。提示:这一步提到的实现过程为个人理解。

feather=hg38_refseq-r80_10kb_up_and_down_tss.mc9nr.genes_vs_motifs.rankings.feather
fname=motifs-v9-nr.hgnc-m0.001-o0.0.tbl

pyscenic ctx --annotations_fname $fname              --expression_mtx_fname fibo_count.loom              --mode dask_multiprocessing              --mask_dropouts              --num_workers 10              --output fibo_ctx.gmt fibo_grn.tsv $feather

3、aucell
  最后,评估每个regulon在所有细胞里面的活性,富集方法与上面的motif富集相似。需要注意的是该步骤也有随机种子参数,如果想保证后面复现结果最好设置一下参数。

pyscenic aucell --seed 21 \ --num_workers 10 --output fibo_aucell.csv fibo_count.loom fibo_ctx.gmt

  到此,pyscenic流程就结束了,后面的工作就是基于regulon活性矩阵探索数据了。当然,也可以将活性矩阵二值化,这样每个regulon在细胞中只有onoff两种状态,可以使用R包AUCell来完成。

library(AUCell)
library(reshape2)

auc <- read.table('fibo_aucell.csv',header=T,row.names=1,sep=',',stringsAsFactors=F,check.names=F)
auc <- t(auc)
rownames(auc) <- gsub(',','', rownames(auc))
auc[1:3, 1:5]
          case1_AAACCTGGTAGTACCT-1 case1_AAAGCAAAGCCTTGAT-1
AHR( )                   0.0680935               0.07413331
ARID3A( )                0.1266152               0.11878014
ARNT2( )                 0.0000000               0.00000000
          case1_AAAGTAGGTCCATCCT-1 case1_AAATGCCGTTCCACTC-1
AHR( )                  0.07159951               0.07028004
ARID3A( )               0.05228222               0.09272742
ARNT2( )                0.00000000               0.00428051
          case1_AACTCCCAGTAGTGCG-1
AHR( )                0.0655522976
ARID3A( )             0.0814689810
ARNT2( )              0.0004553734

cells_assignment <- AUCell_exploreThresholds(auc, plotHist=F, assignCells=T)
thresholds <- getThresholdSelected(cells_assignment)
regulonsCells <- setNames(lapply(names(thresholds), 
                                 function(x) {
                                   trh <- thresholds[x]
                                   names(which(auc[x,]>trh))
                                 }),names(thresholds))

regulonActivity <- melt(regulonsCells)
binaryRegulonActivity <- t(table(regulonActivity[,1], regulonActivity[,2]))
binaryRegulonActivity[1:3, 1:5]
            case1_AAACCTGAGACAGAGA-1 case1_AAACCTGGTAGTACCT-1
  ARID3A( )                        0                        0
  ARNT2( )                         0                        0
  ARNTL( )                         0                        0

            case1_AAAGCAAAGCCTTGAT-1 case1_AAAGTAGCACAACTGT-1
  ARID3A( )                        0                        0
  ARNT2( )                         0                        0
  ARNTL( )                         0                        0

            case1_AAAGTAGGTCCATCCT-1
  ARID3A( )                        0
  ARNT2( )                         0
  ARNTL( )                         0

  最后的最后,展示一下重现文章的结果 (右边来自文章),虽然缺失两个转录因子,可能是前期数据处理不同导致,但是其余的转录因子在两个细胞亚群里面的趋势与文章一致。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多