万事开头难,考虑到很多小伙伴在做单细胞公共数据分析的时候往往是在第一个步骤读取作者上传的表达量矩阵去构建seurat对象就各种屏蔽,非常有必要把18种单细胞数据格式文件都给大家梳理一下 。
首先是,读取h5ad格式的单细胞文件,这里以两个样本,数据链接是 https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE153643 ,为例子,如下所示: GSM4648564 adipose_pooled GSM4648565 liver_pooled
作者提供了表达量矩阵的文件,但文件格式是h5ad,需要进行转换。 将文件下载好存放在GSE153643_RAW 文件夹下,然后代码如下所示: # 自己安装 mojaveazure/seurat-disk 这个GitHub包: #remotes::install_github("mojaveazure/seurat-disk") library(SeuratDisk) library(patchwork) #~~~~~开始读数据~~~~~ ##h5ad是python的Scanpy读取文件格式,需要转换 #~~~~读取adipose~~~~ Convert('./GSE153643_RAW/GSM4648564_adipose_raw_counts.h5ad', "h5seurat", overwrite = TRUE,assay = "RNA") scRNA <- LoadH5Seurat("./GSE153643_RAW/GSM4648564_adipose_raw_counts.h5seurat") scRNA
其实就是借助 一个GitHub包,名字是seurat-disk,首先一个Convert函数,然后一个LoadH5Seurat即可。超级简单。 读取之后的 scRNA就是一个标准的seurat对象,可以使用其标准代码走降维聚类分群哦! ## Normalizing the data scRNA <- NormalizeData(scRNA, normalization.method = "LogNormalize", scale.factor = 10000)
scRNA <- NormalizeData(scRNA)
## Identify the 2000 most highly variable genes scRNA <- FindVariableFeatures(scRNA, selection.method = "vst", nfeatures = 2000)
## In addition we scale the data all.genes <- rownames(scRNA) scRNA <- ScaleData(scRNA, features = all.genes)
scRNA <- RunPCA(scRNA, features = VariableFeatures(object = scRNA), verbose = FALSE) scRNA <- FindNeighbors(scRNA, dims = 1:10, verbose = FALSE) scRNA <- FindClusters(scRNA, resolution = 0.5, verbose = FALSE) scRNA <- RunUMAP(scRNA, dims = 1:10, umap.method = "uwot", metric = "cosine") table(scRNA$seurat_clusters) phe=scRNA@meta.data save(phe,file = 'phe-by-basic-seurat.Rdata')
大家在下面的文章里面可以搜索到10x单细胞转录组数据的文章公布在geo数据库的链接: 如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
|