分享

系统学习单细胞转录组测序scRNA(三)

 昵称46988079 2020-01-11

scRNA的上游处理CellRanger,CellRanger就是基于10X genomics,从fastq生成表达矩阵的工具,然后有了表达矩阵,就可以下游利用Seurat等R包分析

CellRangert软件大小有955M,下载地址:https://support./single-cell-gene-expression/software/downloads/latest

官方教程:https://support./single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger

第一步 BCL2fastq

cellranger可以直接对illumina每个flowcell的BCLs文件(base call files)操作,使用cellranger mkfastq ,它整合了illumina平台的bcl2fastq。虽然我们一般拿到的是fastq文件,但为了从头构建流程,这一步也学一下。

测试文件下载

http://cf./supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz

然后构建一个csv文件,其中包括lane、sample、index信息

这部分内容只是展示,实际分析我们自己是不会用到的

  1. # BCL文件

  2. wget http://cf./supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz

  3. tar zxvf cellranger-tiny-bcl-1.2.0

  4. mv cellranger-tiny-bcl-1.2.0 tiny_bcl

  5. # csv文件,例如

  6. cat cellranger-tiny-bcl-simple-1.2.0.csv

  7. # Lane,Sample,Index

  8. # 1,test_sample,SI-GA-A3

  9. cellranger mkfastq --id=tiny-bcl

  10. --run=tiny_bcl

  11. --csv=cellranger-tiny-bcl-simple-1.2.0.csv

  12. # configured to use 56GB of local memory

  13. # 对服务器内存有要求,不足的话跑不完

结果文件会存放在之前我们用id参数命名的tiny-bcl目录中

  1. ls -l tiny-bcl/outs/fastq_path/

  2. #H35KCBCXY

  3. #Reports

  4. #Stats

  5. #Undetermined_S0_L001_I1_001.fastq.gz

  6. #Undetermined_S0_L001_R1_001.fastq.gz

  7. #Undetermined_S0_L001_R2_001.fastq.gz

也可以使用--qc参数进行质控,这样就会生成一个qc_summary.json文件,主要包含这些内容

系统学习单细胞转录组测序scRNA-Seq(三)

第二步 定量

计数分为两类:

  • 细胞计数:利用输入数据的barcode将每个细胞的reads区分出来

  • UMI计数:只有比对到转录组可信度高的reads才能用于UMI计数

例如得到的fastq文件如下:

  1. sample_S1_L001_R1_001.fastq.gz

  2. sample_S1_L001_R2_001.fastq.gz

  3. #一般来讲R1比R2小是正常的,因为我们要的read1只有二十几bp

一般来讲,read1 为十几或二十几bp(比如:前16bp是barcode,紧接着是12bp的UMI,这样我们需要的read1的有用部分就28bp)【这部分质控效果可能会比较差,因为我们只需要前28bp的序列,却对整条read1进行质控,后面的序列主要是一些重复的poly T】;read2 为91bp【这部分因为全是需要的转录本,因此质控效果会比较好】

比对要用到基因组和注释文件,因此先要准备这些

  1. wget http://cf./supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz

  2. # 大概11G

  3. # 其他的参考数据下载可以看:https://support./single-cell-gene-expression/software/downloads/latest

  1. cellranger count --id=tiny-bcl

  2. --transcriptome=refdata-cellranger-GRCh38-3.0.0

  3. --fastqs=tiny-bcl/outs/fastq_path

  4. --sample=sample

  5. --expect-cells=1000

  6. # --localcores指定多线程

  7. # --localmem指定内存

结果会创建一个sample123 的目录,其中包括

  1. Outputs:

  2. - Run summary HTML: /opt/tiny-bcl/outs/web_summary.html

  3. - Run summary CSV: /opt/tiny-bcl/outs/metrics_summary.csv

  4. - BAM: /opt/tiny-bcl/outs/possorted_genome_bam.bam

  5. - BAM index: /opt/tiny-bcl/outs/possorted_genome_bam.bam.bai

  6. - Filtered feature-barcode matrices MEX: /opt/tiny-bcl/outs/filtered_feature_bc_matrix

  7. - Filtered feature-barcode matrices HDF5: /opt/sample345/outs/filtered_feature_bc_matrix.h5

  8. - Unfiltered feature-barcode matrices MEX: /opt/tiny-bcl/outs/raw_feature_bc_matrix

  9. - Unfiltered feature-barcode matrices HDF5: /opt/tiny-bcl/outs/raw_feature_bc_matrix.h5

  10. - Secondary analysis output CSV: /opt/tiny-bcl/outs/analysis

  11. - Per-molecule read information: /opt/tiny-bcl/outs/molecule_info.h5

  12. - CRISPR-specific analysis: null

  13. - Loupe Cell Browser file: /opt/tiny-bcl/outs/cloupe.cloupe

  • analysis是数据分析目录,其中又包含了clustering聚类(graph-based & k-means聚类);diffexp 差异分析;pca主成分分析(线性降维);tsne 非线性降维

  • cloupe.cloupe 可以作为可视化软件Loupe Cell Browser输入文件

  • filtered_feature_bc_matrix 是过滤后的barcode信息,其中包含了barcodes.tsv.gz; features.tsv.gz; matrix.mtx.gz

  • filtered_feature_bc_matrix.h5 是过滤后的barcode信息HDF5 format

  • metrics_summary.csv 是csv format数据摘要

  • molecular_infos.h5 是UMI信息

  • raw_feature_bc_matrix 是原始的barcode信息

  • possorted_genome_bam.bam 是比对文件[另外还有配套的索引]

定量过程对内存要求较高,真实项目一般需要1-2d

【可选】多样本整合

如果有多个样本,可将它们的定量结果整合,先将每个样本信息写好

  1. #都写在lib.csv中

  2. library_id, molecule_h5

  3. sample1,/sample1/sample1/outs/molecule_info.h5

  4. sample2,/sample2/sample2/outs/molecule_info.h5

然后使用

  1. cellranger aggr --id=sample1vssample2

  2. --csv=lib.csv

  3. --normalize=mapped

输出结果中与上面类似

[可选] 重新调整

对细胞重新分群

因为barcode是区别细胞的,因此需要提供barcodes.csv

  1. # barcodes.csv

  2. Barcode

  3. AAACCTGAGCCACGCT-1

  4. AAACCTGAGTGGCGAC-1

  5. AAACCTGAGCGTTACG-1

  6. ...

  1. cellranger reanalyze --id=tiny-bcl

  2. --matrix=filtered_feature_bc_matrix.h5

  3. --barcodes=barcodes.csv

适当调整细胞数

  • 计数之前调整

    1. cellranger count --id=tiny-bcl

    2. --transcriptome=refdata-cellranger-GRCh38-3.0.0

    3. --fastqs=tiny-bcl/outs/fastq_path

    4. --sample=sample

    5. --force-cells=5000

  • 计数之后强制调整

    1. cellranger reanalyze --id=tiny-bcl

    2. --matrix=raw_feature_bc_matrix.h5

    3. --force-cells=5000

kmeans

先将预调整的cluster数量放在一个文件中

  1. # para.csv

  2. max_clusters,15

然后

  1. cellranger reanalyze --id=tiny-bcl

  2. --matrix=filtered_feature_bc_matrix.h5

  3. --params=para.csv

第三步 格式转化

  1. $ cellranger mat2csv filtered_feature_bc_matrix sample_gene_bar.csv

得到的文件就是行为基因,列为细胞的表达矩阵

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多