分享

【陈巍学基因】视频56:10X分析单细胞表达

 ABCmedic 2017-08-22


字 幕 内 容


欢迎来到【陈巍学基因】,今天要和大家谈一下用10X genomics系统,来对一群细胞当中的单个细胞做RNA表达情况的定量分析。

 

10X genomics是一家美国公司,它把微珠加DNA标签、微滴发生、酶反应、和高通量测序后的数据分析,这一系列的技术整合在一起,做出一个基于油包水乳浊液酶反应原理的分子生物学分析系统。

 

10X genomics的机器的外观是这样的。这个机器的功能就是制备油包水的乳浊液,它是配合芯片来进行工作的。在这台机器上制备乳一次乳浊液,所花的时间是7分钟。

 

芯片的样子是这样的,芯片上面有4排8列,共32个孔。一张芯片一次可以处理8个样本。每一列孔对应于一个样本。编号为“1”的这排孔是用来放样本的,编号为“2”的这排孔是用来放预制微珠(gel beads)的,编号为“3”的这排孔,是用来放油的,最上面的这排孔,是在做好乳浊液之后,回收乳浊液的孔。

 

这个系统目前可以做两件事情:

  • 第一件事情是可以做一群细胞当中,每个单细胞的RNA表达情况的定量分析

  • 第二件事情是可以做染色体的单倍体长片段的组装

 

今天我们重点来说第一件事情,也就是对一群细胞当中每个单细胞表达情况的分析的这个功能。关于第二件事情,做染色体的单倍体长片段组装的功能,我们会放在下一个视频当中详细讲。

 

这个分析单细胞表达情况的功能,它所解决的问题,是去搞清楚数量较大的一群细胞,比如说几千个细胞,这群细胞当中,每个细胞的mRNA表达分别有什么特征,(以及)这些细胞按mRNA的表达特征来分,大致可以分成哪几类。

 

我们来看10X的工作原理。


微珠上的DNA引特设计

 

先预制凝胶微珠,英文叫“gel beads”。每个凝胶微珠上,种上特定的DNA片段。

 

每个DNA序列,分几段。

 

第一段是一段Barcode。这段Barcode是16个碱基的长度。一共有400万种Barcode,一个微珠是对应于一种Barcode,通过这400万种Barcode,可以把凝胶微珠给区分开。

 

任意两个Barcode之间至少差两个或两个以上的碱基,这样可以避免因为测序的时候对碱基的误读,而导致把两个Barcode搞混。

 

第二段序列是UMI序列,UMI是“unique multiplex index”的简称。UMI是一段随机序列,也就是说每一个DNA分子,都有自己的UMI序列。10个碱基长的UMI,有100万种序列的变化(4^10  = 1,048,576)。

 

UMI起到的作用,是在经过PCR、再深度测序得到的reads,可以看出哪些reads是来自于一个原始cDNA分子的。这样,就可以把起始于一个原始cDNA分子,因为PCR扩增而产生的多个reads,简并成一个原始的cDNA分子。也就是可以排除各种cDNA,因为PCR扩增效率的不同,而导致最后reads数量的偏差,也就是排除“PCR bias”。

 

可以这样来理解,Barcode是每个凝胶微珠的身份证号码;而UMI是每个DNA标签分子的身份证号码。

 

在UMI序列后面,是Poly(dT)序列。这段序列起到的作用是与mRNA的Poly(A)尾巴结合,作为逆转录的引物,逆转录出cDNA来。


芯片上的液流管路

 

接下来,我们来看芯片上的液流管路。

 

这里,是准备好的凝胶微珠,细胞混悬液在第一个十字交叉口,与凝胶微珠混合到一起,然后进入第二个十字交叉口,油相在这个十字交叉口加入进来。油把凝胶微珠和细胞的混悬液包裹成一个又一个的油包水的小液滴,这些小液滴里面是水相,外面包裹的是油相。

 

从总体上来说,这许多油包水的小微滴,就组成了一个乳浊液。

 

在这些小液滴当中,有些是含有一个细胞的,有些是不包含细胞的,还有些会含有两个、或两个以上的细胞。

 

一个小液滴当中含几个细胞,是符合泊松分布的。

 

大部分的细胞,会被单独地分配到一个小液滴当中去。

 

细胞混悬液中约65%的细胞,会被包到有微珠的小液滴当中,这65%的细胞会在后面的分析当中给出序列信号。


做成测序文库

 

在得到乳浊液之后,接下来把细胞膜破掉,让细胞当中的mRNA游离出来。游离出来的mRNA与小液滴中的水相混合,也就是和逆转录酶、结合在凝胶微珠上的核酸引物、以及dNTP底物相接触。

 

接着,发生逆转录反应。mRNA与凝胶微珠上带标签的DNA分子相结合,在逆转录酶的作用下,逆转录出cDNA来。

 

注意,这样得到cDNA分子是带有这个微珠所特有的Barcode标签的,并且每个cDNA分子各自还会带有特定的UMI标签。有了这个Barcode标签和UMI标签之后,这个cDNA分子就与其它的cDNA分子区分开来。

 

接下来,把这个乳浊液当中所有的水相抽出来,也就是把所有带了标签的cDNA分子都抽出来,再把这些cDNA分子都加上接头,经过PCR扩增,做成illumina的测序文库,放到Illumina的测序仪上进行测序。测序完成之后,进行数据分析。


数据分析

 

接下来,来说数据分析。

 

因为一次是测几百个到几千个细胞,而Barcode的种类是400万种,所以大部分的细胞是一个细胞有一个Barcode,通过Barcode拆分数据,可以把测序得到的reads归属到一个一个的细胞。

 

当然也会有少量情况,两个或更多数量的细胞共享一个barcode,这种情况下来源于这几个细胞的reads就混合成了一个“pool”。为了减少这种混合pool的形成,在做细胞混悬液的时候,就要控制原始的细胞数。原始的细胞数越少,最后形成的混合pool也就越少,这是符合泊松分布的。经验值是一个样本混悬液当中的细胞数控制在1万以下为好。

 

在通过UMI对Reads进行简并之后,就可以看到一个细胞被读到了多少个基因。

 

原始的reads越多,则被测到的基因数也会越多。一般在一个细胞被读到30万条Reads之后,能得到的基因数量随reads数的增长变少,也就是被读到基因数量的增加进入平台期。

 

一般一个细胞可以得到40000~80000个有效的UMI,平均一个细胞的一个基因有10个左右的UMI。

 

有了这些UMI,就可以对一个细胞进行分析。

 

一个细胞的一个基因表达量的多少,就是衡量这个细胞的一个维度。几千个被测到的基因的表达量,也就是形成了几千个维度。

 

这是把130万个细胞,放在一个三维空间里来观察,我们可以看到这些细胞在三维的矢量空间里,形成一定的分布。我们再看把这些细胞加上伪彩,通过这个三维的伪彩图,我们就可以形象地观察这一大群细胞的整体情况了。

 

我们可以把这一团细胞的矢量空间放大,再分别加上伪彩,再细看里面更细的空间分布。

 

以上,是对10X genomics这个系统做单细胞RNA表达量分析工作的一个简要介绍。

 

谢谢您的收看。

 

 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多