在RNA_seq数据的定量分析中,都是首先将reads比对到参考基因组,然后再使用定量软件进行定量,比如经典的hisat+stringTie的分析策略,对于单细胞转录组而言,其定量的原理也是一样的,只不过由于引入了 官方提供的cell ranger软件不仅提供了数据拆分,也提供了定量等分析内容。 定量的前提都是需要将reads比对到参考基因组上,对于比对而言,第一步都是先对参考基因组建立索引,官网提供了人和小鼠的参考基因组供下载,网址如下
对于其他物种,我们只需要有基因组的fasta文件和转录本的gtf文件,就可以自定义参考基因组,步骤如下 1. 对GTF文件进行过滤在原始的GTF文件中,会包含非常多类型的基因,可以通过 cellranger mkgtf hg38.ensembl.gtf hg38.ensembl.filtered.gtf --attribute=gene_biotype:protein_coding 通过 2. 建立索引通过 cellranger mkref --genome=output_genome --nthreads=10 --fasta=input.fa --genes=input.gtf
.
├── fasta
│ ├── genome.fa
│ └── genome.fa.fai
├── genes
│ └── genes.gtf
├── pickle
│ └── genes.pickle
├── reference.json
└── star 可以看到,cell ranger对基因组建立了 定量分析通过 cellranger count --id=sample345 --transcriptome=database_path --fastqs=fastq_path --sample=mysample \
·end· |
|