分享

什么是NGS和建库的接头?

 小小医生孙丹雄 2022-08-12 发布于云南

常记溪亭日暮,沉醉不知归路。


公众号:小小医生之有趣的医学

前言

建库就是为了做NGS(宏基因测序,二代基因测序),接头暗号是核心工作之一。

没有接头,就做不了高通量基因测序(就是大量基因一起测序)。

高通量测序就是刘备、张飞、关羽、孙权、曹操、周瑜、诸葛亮等的标本,一起同时混合在一起,搅成一坨稀饭,然后放进NGS仪器进行大量的基因检测。

为什么不分开检测呢?

因为一个字:穷。

把10个人的咽拭子混在一起测新冠病毒核酸,四不四就很便宜啦?

问题来了,关羽、张飞、赵云、黄忠、马超、颜良、文丑、夏侯燕的血液混在一起做基因检测,检测结果出来,肿么知道哪一个基因是某个鸟人的呢?

靠的就是接头的作用,接头就是身份证,接头就是启动子!在测序之前,要加上接头,要不然就白干了。



01 什么是接头

查了很多资料,就是说怎么怎么构建接头,接你大爷的头,就是不说接头是干嘛的,也不说什么是接头!

查了很多资料,终于搞明白,接头就是接头暗号!

完整的文库需包含:1.DNA片段(DNA Insert);2.DNA片段两端各有的一个接头。

接头主要包含P5和P7序列、Rd1 SP和Rd2 SP以及Index序列。

1.P5和P7序列是使文库DNA片段能够结合并在NGS仪器的Flow Cell上生成簇的序列;在illumina平台中,与测序芯片上的P5和P7端结合,将待测DNA文库固定到测序芯片上,以便于通过桥式PCR进行成簇反应。

2.Rd1 SP和Rd2 SP测序启动时测序引物的结合位点;就是从这里开始测序(read)。

3.Index则是用以区分样本的标签序列,Index序列的存在可允许单次测序或单个Flow Cell通道中混合多个人的样本。每个人的样本只有一个身份证Index)。

NGS的主流测序平台包括illumina测序平台和华大基因的MGI/BGI测序平台。

Adapter ligation:把接头给接上去!

来源:翌圣生物。


02 各种标签

样品标签(sample index,sample barcode):用于区分不同来源的样本而加上的标签序列。所以,每一个人的样本只能有一个相同的样品标签,就像一个正常人只能有一个身份证。然鹅,但是,一个人的标本可以有成千上万的分子标签(barcode)。

分子标签(Molecular Barcode, UID:Unique identifiers, UMI:Unique molecular identifiers):针对同一个人的样本中的不同DNA片段加上的标签序列。

分子标签:对原始样本基因组打断后的每一个片段都加上一段特有的标签序列,用于区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶和扩增以及测序过程中所出现的错误。分子条形码通常由大约10nt左右的随机序列组成。

nt:nucleotide,核苷酸

base pair(bp):碱基对

分子标签的作用原理:同一个样本的DNA片段,每一个片段都带有一个特有的标签序列,它会随目标序列参加万里长征,他们一起经过文库构建、一起被PCR 扩增,然后一起被测序。最终测序得到的序列中,带有不同标签的序列,代表它们来自不同的原始DNA片段分子;带有相同分子标签的序列,代表这些序列都是从同一条原始的DNA片段扩增而来的。由于PCR和测序过程中的错误是随机发生的,因此根据这些分子标签,可以在去除冗余的过程中将PCR和测序等过程中带来的系统突变排除掉。利用分子标签进行数据分析,可以大大降低低频突变的假阳性率。

作者:fatboat

链接:https://www.zhihu.com/question/265124403/answer/289767986

来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


03 Y型接头

为什么要使用Y型接头(adapter Y),Y型接头的原理是什么?

测序RNA文库的两端需要不同的接头,一般叫P5和P7(我觉得是接头的一部分)。RNA建库的目的之一就是为了在每个DNA片段的两端加上这两个东东。假设随机在两端加p5或p7,就会有一半的片段两端加的是相同的接头(50%的概率),这种RNA文库是无效的,原因:在测序芯片flow cell上,两端一样的文库走不通正常的测序流程,提前作废了;另外,一般的建库PCR过程中,两端一样的片段,在变性后两端会biu在一起,引物竞争不上去,然后只能扩增个屁。

肿么办?

在经典的“连接酶加接头方法”行RNA建库时,可以用Y接头搞定这个问题。DNA本身就有头尾5→3方向性,连接时Y接头可以让头尾分别只加一种接头。以常用的NEBnext试剂盒为例,只有模板文库的5端会接绿色,3端接黄色,不会反接,也不会两端接一样的。

另外还有一个附带的好处是,这种库是有“方向性”的文库,也就是read1 和read2只会分别读到原有DNA片段的头/尾信息,而不会混淆。

作者:宋立阳

链接:https://www.zhihu.com/question/337032781/answer/764163235

来源:知乎

https://www./zh-CN/Public/Resources/zxzx/0041

index1和index2也是不同的,与P5相连的是index2,与P7相连的是index1

关于index,也叫barcodes,因为一个lane(泳道)可以同时测多个样品,为了避免混淆样品的read products,每种样品的DNA由一种index修饰,这样测序得到的reads都是具有index标记的,在测序结果中,依据之前标签与样品的对应关系,就可以获得对应样品的数据。而这里的index1和index2是为了区分paired-end测序得到的双端reads。

一个簇的图像数据就是一个DNA序列(read)。

NEBNext 接头是为 DNA、ChIP DNA 和 RNA(不包括 Small RNA)文库构建而设计的,能够确保接头的高效连接及文库的高产量,并且最大限度的减少接头二聚体的形成。NEBNext 接头包含一个特殊的发卡环状结构,能够更高效的和经末端修复的带 dA 尾的 DNA 结合。环状结构包含一个 U,当 U 被 USER 酶(由 UDG 和内切酶 VIII 组合而成)切掉后,环状结构打开,使它可以成为 PCR 的反应底物。检索序列通过 PCR 引入文库,从而实现了多样本的制备。NEBNext 接头引物不仅能够用于 NEBNext 产品,也可以用于其它的兼容 Illumina 标准平台的文库制备法。


04 接头分类

(1)根据样本身份证Index位置可以将接头分为单端Index接头和双端Index接头。

单端Index接头:指的是仅在P5端或P7端存在Index(一般在P7端);

双端Index接头:指的在P5和P7端均存在Index。比单端Index能容纳更多数目的样本,被广泛使用。

(2)根据接头是否匹配PCR free建库可以将接头分为长接头和短接头。

长接头又称为完整接头:包括P5/P7+Index序列+Read 1/2,完整接头通过TA克隆的方式连接到DNA片段之后,可以直接上机测序(但是当DNA量不够时还需进行PCR扩增使得产物达到一定的量方可上机测序)。

短接头又叫不完整接头:通过TA克隆方式连接到DNA片段上后,必须与短接头互补的引物进行PCR扩增,扩增就有了完整接头,然后才能上机。也就是说短接头一定要通过PCR扩增,成为完整接头之后,才能上机测序。


05 身份证Index的要求

Index的选择需满足两个原则:碱基平衡和激光平衡

1.碱基平衡:指Index序列的复杂度和平衡度。

复杂度指的是碱基的种类的多样(A、T、C、G四种碱基都要有的起);平衡度指的是碱基之间分布比例的均衡(各碱基之间的比例接近25%)。需要注意的是碱基的平衡是指多个Index之间的平衡,而不是单个index内部的碱基平衡。

2.激光平衡:假如碱基不平衡,那么就搞激光平衡。激光平衡是指在一组Index序列中需满足每个碱基位A + C =G + T,因为在illumina测序仪中,A和C两种碱基共用一种激光,由波长660nm的红激光激发;G和T共用一种激光,由波长532 nm的绿激光激发。

来源:上海翊圣生物科技有限公司


06 

RNA的提取和纯化技术


07 

DNA分子的结构和复制及RNA转录


08 

DNA与RNA的比较及转录


09 

二代测序(NGS)技术介绍



               杨柳岸,晓风残月。

视频


大千世界,繁花似锦!

NGS测序样本前处理自动化:完成核酸片断化、文库构建与捕获

让你陶醉的猪队友!
老是说别人倒放!
力拔山兮!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多