【原】大样品量的传统bulk转录组解决方案

健明 2023-02-04 发布于广东

展开全文

先抛出一个问题给大家：单细胞转录组就一定是比传统的bulk转录组贵吗？

转录组成本问题

传统bulk转录组测序项目大家都很熟悉了，我们的明码标价之转录组常规测序服务（仅需799每个样品）和明码标价之普通转录组上游分析可以帮助大家快速拿到表达量矩阵，而明码标价之转录组下游分析仅需800元又可以进行最起码的差异分析，富集分析，以及各种各样的可视化。

因为现阶段传统bulk转录组测序项目成为了标准品，无论大家在哪个公司测序都是几百块钱一个样品，简单的3分组的6个样品，就包括了定量和普通差异分析富集分析的服务，因为都是流程化的。随着国产华大基因的测序服务的崛起，以及illumina的更新换代，测序成本一降再降。2021的时候还是：明码标价之转录组常规测序服务（仅需799每个样品），到2022就是常规转录组测序加分析仅需549，12个样品起。

价格：¥549/sample（如果需要建库服务每个样品加收50元）
策略及平台：PE150，6G数据量（上下浮动10%），MGIseq2000平台。（如果一定要选择illumina平台加60元）

一些特色增值服务：

1.免费提供基于数据结果的项目再次优化。
2.样本量大于12个客户，免费赠送16小时转录组分析全套视频 (Linux系统操作、R语言绘图、转录组分析)及针对视频的1年服务器练习使用权限。

虽然已经是超级亲民的价格，但是仅限于简单的3分组的6个样品，或者多分组但是十几个样品这样的数据量。一般来说，差异分析流程适用于两两比较，简单的格式，但实际科研中往往不是这样，比如：GSE116439 数据集：

Drug-induced change in gene expression across NCI-60 cell lines after exposure to 15 anticancer agents for 2, 6 and 24h (cisplatin)，详见：https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE116439

其中一个细胞系的一种药物的不同浓度不同时间段处理数据如下：

GSM3232817 MDA-MB-231_cisplatin_0nM_24h
GSM3232818 MDA-MB-231_cisplatin_0nM_2h
GSM3232819 MDA-MB-231_cisplatin_0nM_6h
GSM3232820 MDA-MB-231_cisplatin_15000nM_24h
GSM3232821 MDA-MB-231_cisplatin_15000nM_2h
GSM3232822 MDA-MB-231_cisplatin_15000nM_6h
GSM3232823 MDA-MB-231_cisplatin_3000nM_24h
GSM3232824 MDA-MB-231_cisplatin_3000nM_2h
GSM3232825 MDA-MB-231_cisplatin_3000nM_6h

这里面有60个不同细胞系，15种不同的药物，设计了3种不同的浓度梯度，处理后的不同时间段连续取样。如下所示的药物：

15种不同的药物

这么多样品如果是都做转录组，成本就上来了。而且这样的实验也不在少数，经费充足的大课题组总是存在的。

单细胞转录组其实也两个方向

Smart-seq2和10x这两个单细胞技术是现在初学者进入单细胞领域最需要掌握的，它们代表着单细胞的两个全然不同的发展策略。绝大部分的单细胞技术原理介绍会从单细胞悬浮液制备到测序细节面面俱到，其实并不那么的初学者友好，最近有粉丝在公众号后台留言说他们的博士课程有一个思考题是：简要概述smart-seq2和10x技术的单细胞差异。然后他给大家推荐了一个高度精炼的综述，这个综述于2020年9月发表在《Experimental & Molecular Medicine》杂志，标题是：《Single-cell sequencing techniques from individual to multiomics analyses》，链接是：https://www./articles/s12276-020-00499-2

可以看到这个综述总结了smart-seq2和10x技术的5大差异

smart-seq2技术依赖于C1这个仪器，每次都是96个细胞一起测序，每个细胞的测序量这个综述可能是写错了，应该是1M-10M为佳，不太可能是100-1000个M，最重要的是它是整个RNA分子的全长测序，每个细胞都是独立的测序。
但是10X呢，每次可以测好几千的细胞，每个细胞只需要5-10K的reads，而且仅仅是测RNA分子的一段即可，全部的细胞都混合在一起，虽然说有barcode可以区分。

现在比较成熟的10X单细胞转录组每个样品制备后比较理想的说测8000多个细胞，其实就相对于是8000多个转录组样品，只不过是每个样品仅仅是测序了50K的reads，而我们常规的bulk转录组每个样品是20M的转录组，400倍的测序数据量差异。

如果我们想测8000个常规bulk转录组，哪怕是做到单价100块钱，也是80万人民币，不是一般的课题组能承受的。其实这个时候往往是样品更珍贵的了，比如大名鼎鼎的TCGA计划确实是33种癌症好几万的常规bulk转录组但是耗资很可观而且持续十好几年。

因为大家研究的问题不一样，所以很难下结论说单细胞转录组就一定是比传统的bulk转录组贵，而且smart-seq单细胞技术产出的单细胞转录组数据基本上跟传统的bulk转录数据有类似的数据处理流程。

把smart-seq单细胞技术应用到大样品量的传统转录组

如果因为课题需要，必须得做大样品量的传统的bulk转录数据，这个时候可以把smart-seq单细胞技术应用起来，比如数据集：GSE164788，对应的文章是：Machine learning identifies candidates for drug repurposing in Alzheimer's disease. Nat Commun 2021 Feb ， PMID: 33589615，数据集链接是：https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE164788

可以看到这个是 764 个样品，做了 80 FDA-approved and clinically tested drugs in neural cell cultures：

GSM5018704 dge1_A01 RNA-seq of ReNcell VM treated with 0.3 uM bx-912
GSM5018705 dge1_A02 RNA-seq of ReNcell VM treated with 10 uM hg-9-91-01
GSM5018706 dge1_A03 RNA-seq of ReNcell VM treated with 0.3 uM pha-665752

并且给出来了的矩阵并不是常规的行是基因列是样品的矩阵：

GSE164788_deduplicated_counts.csv.gz 32.5 Mb 
GSE164788_normalized_counts.csv.gz 51.6 Mb

所以我去看了看原文，是 High-throughput profiling using 3′ DGE 技术，使用了 384-well PCR plate;这样的话每个孔的样品都有唯一的well barcodes and unique molecular identifiers (UMIs) ，这样的话每个384孔板可以混合去测序并且定量，最后表达量矩阵按照每个样品的UMI拆分即可。也就是说，看起来是这个GSE164788是764 个bulk转录数据样品，但是实际上就两次转录组测序即可。