【原】什么是NGS和建库的接头？

小小医生孙丹雄 2022-08-12 发布于云南

展开全文

常记溪亭日暮，沉醉不知归路。

公众号：小小医生之有趣的医学

前言

建库就是为了做NGS（宏基因测序，二代基因测序），接头暗号是核心工作之一。

没有接头，就做不了高通量基因测序（就是大量基因一起测序）。

高通量测序就是刘备、张飞、关羽、孙权、曹操、周瑜、诸葛亮等的标本，一起同时混合在一起，搅成一坨稀饭，然后放进NGS仪器进行大量的基因检测。

为什么不分开检测呢？

因为一个字：穷。

把10个人的咽拭子混在一起测新冠病毒核酸，四不四就很便宜啦？

问题来了，关羽、张飞、赵云、黄忠、马超、颜良、文丑、夏侯燕的血液混在一起做基因检测，检测结果出来，肿么知道哪一个基因是某个鸟人的呢？

靠的就是接头的作用，接头就是身份证，接头就是启动子！在测序之前，要加上接头，要不然就白干了。

01 什么是接头

查了很多资料，就是说怎么怎么构建接头，接你大爷的头，就是不说接头是干嘛的，也不说什么是接头！

查了很多资料，终于搞明白，接头就是接头暗号！

完整的文库需包含：1.DNA片段（DNA Insert）；2.DNA片段两端各有的一个接头。

接头主要包含P5和P7序列、Rd1 SP和Rd2 SP以及Index序列。

1.P5和P7序列是使文库DNA片段能够结合并在NGS仪器的Flow Cell上生成簇的序列；在illumina平台中，与测序芯片上的P5和P7端结合，将待测DNA文库固定到测序芯片上，以便于通过桥式PCR进行成簇反应。

2.Rd1 SP和Rd2 SP是测序启动时测序引物的结合位点；就是从这里开始测序（read）。

3.Index则是用以区分样本的标签序列，Index序列的存在可允许单次测序或单个Flow Cell通道中混合多个人的样本。每个人的样本只有一个身份证（Index）。

NGS的主流测序平台包括illumina测序平台和华大基因的MGI/BGI测序平台。

Adapter ligation：把接头给接上去！

来源：翌圣生物。

02 各种标签

样品标签（sample index，sample barcode）：用于区分不同来源的样本而加上的标签序列。所以，每一个人的样本只能有一个相同的样品标签，就像一个正常人只能有一个身份证。然鹅，但是，一个人的标本可以有成千上万的分子标签（barcode）。

分子标签（Molecular Barcode, UID：Unique identifiers, UMI：Unique molecular identifiers）：针对同一个人的样本中的不同DNA片段加上的标签序列。

分子标签：对原始样本基因组打断后的每一个片段都加上一段特有的标签序列，用于区分同一样本中成千上万的不同的片段，在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶和扩增以及测序过程中所出现的错误。分子条形码通常由大约10nt左右的随机序列组成。

nt：nucleotide，核苷酸

base pair(bp)：碱基对

分子标签的作用原理：同一个样本的DNA片段，每一个片段都带有一个特有的标签序列，它会随目标序列参加万里长征，他们一起经过文库构建、一起被PCR 扩增，然后一起被测序。最终测序得到的序列中，带有不同标签的序列，代表它们来自不同的原始DNA片段分子；带有相同分子标签的序列，代表这些序列都是从同一条原始的DNA片段扩增而来的。由于PCR和测序过程中的错误是随机发生的，因此根据这些分子标签，可以在去除冗余的过程中将PCR和测序等过程中带来的系统突变排除掉。利用分子标签进行数据分析，可以大大降低低频突变的假阳性率。

作者：fatboat

链接：https://www.zhihu.com/question/265124403/answer/289767986

来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

03 Y型接头

为什么要使用Y型接头（adapter Y），Y型接头的原理是什么？

测序RNA文库的两端需要不同的接头，一般叫P5和P7（我觉得是接头的一部分）。RNA建库的目的之一就是为了在每个DNA片段的两端加上这两个东东。假设随机在两端加p5或p7，就会有一半的片段两端加的是相同的接头（50%的概率），这种RNA文库是无效的，原因：在测序芯片flow cell上，两端一样的文库走不通正常的测序流程，提前作废了；另外，一般的建库PCR过程中，两端一样的片段，在变性后两端会biu在一起，引物竞争不上去，然后只能扩增个屁。

肿么办？

在经典的“连接酶加接头方法”行RNA建库时，可以用Y接头搞定这个问题。DNA本身就有头尾5→3方向性，连接时Y接头可以让头尾分别只加一种接头。以常用的NEBnext试剂盒为例，只有模板文库的5端会接绿色，3端接黄色，不会反接，也不会两端接一样的。

另外还有一个附带的好处是，这种库是有“方向性”的文库，也就是read1 和read2只会分别读到原有DNA片段的头/尾信息，而不会混淆。

作者：宋立阳

链接：https://www.zhihu.com/question/337032781/answer/764163235

来源：知乎

https://www./zh-CN/Public/Resources/zxzx/0041

index1和index2也是不同的，与P5相连的是index2，与P7相连的是index1

关于index，也叫barcodes，因为一个lane（泳道）可以同时测多个样品，为了避免混淆样品的read products，每种样品的DNA由一种index修饰，这样测序得到的reads都是具有index标记的，在测序结果中，依据之前标签与样品的对应关系，就可以获得对应样品的数据。而这里的index1和index2是为了区分paired-end测序得到的双端reads。

一个簇的图像数据就是一个DNA序列（read）。

NEBNext 接头是为 DNA、ChIP DNA 和 RNA（不包括 Small RNA）文库构建而设计的，能够确保接头的高效连接及文库的高产量，并且最大限度的减少接头二聚体的形成。NEBNext 接头包含一个特殊的发卡环状结构，能够更高效的和经末端修复的带 dA 尾的 DNA 结合。环状结构包含一个 U，当 U 被 USER 酶（由 UDG 和内切酶 VIII 组合而成）切掉后，环状结构打开，使它可以成为 PCR 的反应底物。检索序列通过 PCR 引入文库，从而实现了多样本的制备。NEBNext 接头引物不仅能够用于 NEBNext 产品，也可以用于其它的兼容 Illumina 标准平台的文库制备法。

04 接头分类

（1）根据样本身份证Index位置可以将接头分为单端Index接头和双端Index接头。

单端Index接头：指的是仅在P5端或P7端存在Index（一般在P7端）；

双端Index接头：指的在P5和P7端均存在Index。比单端Index能容纳更多数目的样本，被广泛使用。

（2）根据接头是否匹配PCR free建库可以将接头分为长接头和短接头。

长接头又称为完整接头：包括P5/P7+Index序列+Read 1/2，完整接头通过TA克隆的方式连接到DNA片段之后，可以直接上机测序（但是当DNA量不够时还需进行PCR扩增使得产物达到一定的量方可上机测序）。

短接头又叫不完整接头：通过TA克隆方式连接到DNA片段上后，必须与短接头互补的引物进行PCR扩增，扩增就有了完整接头，然后才能上机。也就是说短接头一定要通过PCR扩增，成为完整接头之后，才能上机测序。

05 身份证Index的要求

Index的选择需满足两个原则：碱基平衡和激光平衡

1.碱基平衡：指Index序列的复杂度和平衡度。

复杂度指的是碱基的种类的多样（A、T、C、G四种碱基都要有的起）；平衡度指的是碱基之间分布比例的均衡（各碱基之间的比例接近25%）。需要注意的是碱基的平衡是指多个Index之间的平衡，而不是单个index内部的碱基平衡。

2.激光平衡：假如碱基不平衡，那么就搞激光平衡。激光平衡是指在一组Index序列中需满足每个碱基位A + C =G + T，因为在illumina测序仪中，A和C两种碱基共用一种激光，由波长660nm的红激光激发；G和T共用一种激光，由波长532 nm的绿激光激发。