【陈巍学基因】视频56:10X分析单细胞表达

ABCmedic 2017-08-22

展开全文

字幕内容

欢迎来到【陈巍学基因】，今天要和大家谈一下用10X genomics系统，来对一群细胞当中的单个细胞做RNA表达情况的定量分析。

10X genomics是一家美国公司，它把微珠加DNA标签、微滴发生、酶反应、和高通量测序后的数据分析，这一系列的技术整合在一起，做出一个基于油包水乳浊液酶反应原理的分子生物学分析系统。

10X genomics的机器的外观是这样的。这个机器的功能就是制备油包水的乳浊液，它是配合芯片来进行工作的。在这台机器上制备乳一次乳浊液，所花的时间是7分钟。

芯片的样子是这样的，芯片上面有4排8列，共32个孔。一张芯片一次可以处理8个样本。每一列孔对应于一个样本。编号为“1”的这排孔是用来放样本的，编号为“2”的这排孔是用来放预制微珠（gel beads）的，编号为“3”的这排孔，是用来放油的，最上面的这排孔，是在做好乳浊液之后，回收乳浊液的孔。

这个系统目前可以做两件事情：

第一件事情是可以做一群细胞当中，每个单细胞的RNA表达情况的定量分析
第二件事情是可以做染色体的单倍体长片段的组装

今天我们重点来说第一件事情，也就是对一群细胞当中每个单细胞表达情况的分析的这个功能。关于第二件事情，做染色体的单倍体长片段组装的功能，我们会放在下一个视频当中详细讲。

这个分析单细胞表达情况的功能，它所解决的问题，是去搞清楚数量较大的一群细胞，比如说几千个细胞，这群细胞当中，每个细胞的mRNA表达分别有什么特征，（以及）这些细胞按mRNA的表达特征来分，大致可以分成哪几类。

我们来看10X的工作原理。

微珠上的DNA引特设计

先预制凝胶微珠，英文叫“gel beads”。每个凝胶微珠上，种上特定的DNA片段。

每个DNA序列，分几段。

第一段是一段Barcode。这段Barcode是16个碱基的长度。一共有400万种Barcode，一个微珠是对应于一种Barcode，通过这400万种Barcode，可以把凝胶微珠给区分开。

任意两个Barcode之间至少差两个或两个以上的碱基，这样可以避免因为测序的时候对碱基的误读，而导致把两个Barcode搞混。

第二段序列是UMI序列，UMI是“unique multiplex index”的简称。UMI是一段随机序列，也就是说每一个DNA分子，都有自己的UMI序列。10个碱基长的UMI，有100万种序列的变化（4^10 = 1,048,576）。

UMI起到的作用，是在经过PCR、再深度测序得到的reads，可以看出哪些reads是来自于一个原始cDNA分子的。这样，就可以把起始于一个原始cDNA分子，因为PCR扩增而产生的多个reads，简并成一个原始的cDNA分子。也就是可以排除各种cDNA，因为PCR扩增效率的不同，而导致最后reads数量的偏差，也就是排除“PCR bias”。

可以这样来理解，Barcode是每个凝胶微珠的身份证号码；而UMI是每个DNA标签分子的身份证号码。

在UMI序列后面，是Poly(dT)序列。这段序列起到的作用是与mRNA的Poly(A)尾巴结合，作为逆转录的引物，逆转录出cDNA来。

芯片上的液流管路

接下来，我们来看芯片上的液流管路。

这里，是准备好的凝胶微珠，细胞混悬液在第一个十字交叉口，与凝胶微珠混合到一起，然后进入第二个十字交叉口，油相在这个十字交叉口加入进来。油把凝胶微珠和细胞的混悬液包裹成一个又一个的油包水的小液滴，这些小液滴里面是水相，外面包裹的是油相。

从总体上来说，这许多油包水的小微滴，就组成了一个乳浊液。

在这些小液滴当中，有些是含有一个细胞的，有些是不包含细胞的，还有些会含有两个、或两个以上的细胞。

一个小液滴当中含几个细胞，是符合泊松分布的。

大部分的细胞，会被单独地分配到一个小液滴当中去。

细胞混悬液中约65%的细胞，会被包到有微珠的小液滴当中，这65%的细胞会在后面的分析当中给出序列信号。

做成测序文库

在得到乳浊液之后，接下来把细胞膜破掉，让细胞当中的mRNA游离出来。游离出来的mRNA与小液滴中的水相混合，也就是和逆转录酶、结合在凝胶微珠上的核酸引物、以及dNTP底物相接触。

接着，发生逆转录反应。mRNA与凝胶微珠上带标签的DNA分子相结合，在逆转录酶的作用下，逆转录出cDNA来。

注意，这样得到cDNA分子是带有这个微珠所特有的Barcode标签的，并且每个cDNA分子各自还会带有特定的UMI标签。有了这个Barcode标签和UMI标签之后，这个cDNA分子就与其它的cDNA分子区分开来。

接下来，把这个乳浊液当中所有的水相抽出来，也就是把所有带了标签的cDNA分子都抽出来，再把这些cDNA分子都加上接头，经过PCR扩增，做成illumina的测序文库，放到Illumina的测序仪上进行测序。测序完成之后，进行数据分析。

数据分析

接下来，来说数据分析。

因为一次是测几百个到几千个细胞，而Barcode的种类是400万种，所以大部分的细胞是一个细胞有一个Barcode，通过Barcode拆分数据，可以把测序得到的reads归属到一个一个的细胞。

当然也会有少量情况，两个或更多数量的细胞共享一个barcode，这种情况下来源于这几个细胞的reads就混合成了一个“pool”。为了减少这种混合pool的形成，在做细胞混悬液的时候，就要控制原始的细胞数。原始的细胞数越少，最后形成的混合pool也就越少，这是符合泊松分布的。经验值是一个样本混悬液当中的细胞数控制在1万以下为好。

在通过UMI对Reads进行简并之后，就可以看到一个细胞被读到了多少个基因。

原始的reads越多，则被测到的基因数也会越多。一般在一个细胞被读到30万条Reads之后，能得到的基因数量随reads数的增长变少，也就是被读到基因数量的增加进入平台期。

一般一个细胞可以得到40000~80000个有效的UMI，平均一个细胞的一个基因有10个左右的UMI。

有了这些UMI，就可以对一个细胞进行分析。

一个细胞的一个基因表达量的多少，就是衡量这个细胞的一个维度。几千个被测到的基因的表达量，也就是形成了几千个维度。

这是把130万个细胞，放在一个三维空间里来观察，我们可以看到这些细胞在三维的矢量空间里，形成一定的分布。我们再看把这些细胞加上伪彩，通过这个三维的伪彩图，我们就可以形象地观察这一大群细胞的整体情况了。

我们可以把这一团细胞的矢量空间放大，再分别加上伪彩，再细看里面更细的空间分布。

以上，是对10X genomics这个系统做单细胞RNA表达量分析工作的一个简要介绍。

谢谢您的收看。