常记溪亭日暮,沉醉不知归路。 公众号:小小医生之有趣的医学 前言 建库就是为了做NGS(宏基因测序,二代基因测序),接头暗号是核心工作之一。 没有接头,就做不了高通量基因测序(就是大量基因一起测序)。 高通量测序就是刘备、张飞、关羽、孙权、曹操、周瑜、诸葛亮等的标本,一起同时混合在一起,搅成一坨稀饭,然后放进NGS仪器进行大量的基因检测。 为什么不分开检测呢? 因为一个字:穷。 把10个人的咽拭子混在一起测新冠病毒核酸,四不四就很便宜啦? 问题来了,关羽、张飞、赵云、黄忠、马超、颜良、文丑、夏侯燕的血液混在一起做基因检测,检测结果出来,肿么知道哪一个基因是某个鸟人的呢? 靠的就是接头的作用,接头就是身份证,接头就是启动子!在测序之前,要加上接头,要不然就白干了。 01 什么是接头 查了很多资料,就是说怎么怎么构建接头,接你大爷的头,就是不说接头是干嘛的,也不说什么是接头! 查了很多资料,终于搞明白,接头就是接头暗号! 完整的文库需包含:1.DNA片段(DNA Insert);2.DNA片段两端各有的一个接头。 接头主要包含P5和P7序列、Rd1 SP和Rd2 SP以及Index序列。 1.P5和P7序列是使文库DNA片段能够结合并在NGS仪器的Flow Cell上生成簇的序列;在illumina平台中,与测序芯片上的P5和P7端结合,将待测DNA文库固定到测序芯片上,以便于通过桥式PCR进行成簇反应。 2.Rd1 SP和Rd2 SP是测序启动时测序引物的结合位点;就是从这里开始测序(read)。 3.Index则是用以区分样本的标签序列,Index序列的存在可允许单次测序或单个Flow Cell通道中混合多个人的样本。每个人的样本只有一个身份证(Index)。 NGS的主流测序平台包括illumina测序平台和华大基因的MGI/BGI测序平台。 Adapter ligation:把接头给接上去! 来源:翌圣生物。 02 各种标签 样品标签(sample index,sample barcode):用于区分不同来源的样本而加上的标签序列。所以,每一个人的样本只能有一个相同的样品标签,就像一个正常人只能有一个身份证。然鹅,但是,一个人的标本可以有成千上万的分子标签(barcode)。 分子标签(Molecular Barcode, UID:Unique identifiers, UMI:Unique molecular identifiers):针对同一个人的样本中的不同DNA片段加上的标签序列。 分子标签:对原始样本基因组打断后的每一个片段都加上一段特有的标签序列,用于区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶和扩增以及测序过程中所出现的错误。分子条形码通常由大约10nt左右的随机序列组成。 nt:nucleotide,核苷酸 base pair(bp):碱基对 分子标签的作用原理:同一个样本的DNA片段,每一个片段都带有一个特有的标签序列,它会随目标序列参加万里长征,他们一起经过文库构建、一起被PCR 扩增,然后一起被测序。最终测序得到的序列中,带有不同标签的序列,代表它们来自不同的原始DNA片段分子;带有相同分子标签的序列,代表这些序列都是从同一条原始的DNA片段扩增而来的。由于PCR和测序过程中的错误是随机发生的,因此根据这些分子标签,可以在去除冗余的过程中将PCR和测序等过程中带来的系统突变排除掉。利用分子标签进行数据分析,可以大大降低低频突变的假阳性率。 作者:fatboat 链接:https://www.zhihu.com/question/265124403/answer/289767986 来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 03 Y型接头 为什么要使用Y型接头(adapter Y),Y型接头的原理是什么? 测序RNA文库的两端需要不同的接头,一般叫P5和P7(我觉得是接头的一部分)。RNA建库的目的之一就是为了在每个DNA片段的两端加上这两个东东。假设随机在两端加p5或p7,就会有一半的片段两端加的是相同的接头(50%的概率),这种RNA文库是无效的,原因:在测序芯片flow cell上,两端一样的文库走不通正常的测序流程,提前作废了;另外,一般的建库PCR过程中,两端一样的片段,在变性后两端会biu在一起,引物竞争不上去,然后只能扩增个屁。 肿么办? 在经典的“连接酶加接头方法”行RNA建库时,可以用Y接头搞定这个问题。DNA本身就有头尾5→3方向性,连接时Y接头可以让头尾分别只加一种接头。以常用的NEBnext试剂盒为例,只有模板文库的5端会接绿色,3端接黄色,不会反接,也不会两端接一样的。 另外还有一个附带的好处是,这种库是有“方向性”的文库,也就是read1 和read2只会分别读到原有DNA片段的头/尾信息,而不会混淆。 作者:宋立阳 链接:https://www.zhihu.com/question/337032781/answer/764163235 来源:知乎 https://www./zh-CN/Public/Resources/zxzx/0041 index1和index2也是不同的,与P5相连的是index2,与P7相连的是index1 关于index,也叫barcodes,因为一个lane(泳道)可以同时测多个样品,为了避免混淆样品的read products,每种样品的DNA由一种index修饰,这样测序得到的reads都是具有index标记的,在测序结果中,依据之前标签与样品的对应关系,就可以获得对应样品的数据。而这里的index1和index2是为了区分paired-end测序得到的双端reads。 一个簇的图像数据就是一个DNA序列(read)。 NEBNext 接头是为 DNA、ChIP DNA 和 RNA(不包括 Small RNA)文库构建而设计的,能够确保接头的高效连接及文库的高产量,并且最大限度的减少接头二聚体的形成。NEBNext 接头包含一个特殊的发卡环状结构,能够更高效的和经末端修复的带 dA 尾的 DNA 结合。环状结构包含一个 U,当 U 被 USER 酶(由 UDG 和内切酶 VIII 组合而成)切掉后,环状结构打开,使它可以成为 PCR 的反应底物。检索序列通过 PCR 引入文库,从而实现了多样本的制备。NEBNext 接头引物不仅能够用于 NEBNext 产品,也可以用于其它的兼容 Illumina 标准平台的文库制备法。 04 接头分类 (1)根据样本身份证Index位置可以将接头分为单端Index接头和双端Index接头。 单端Index接头:指的是仅在P5端或P7端存在Index(一般在P7端); 双端Index接头:指的在P5和P7端均存在Index。比单端Index能容纳更多数目的样本,被广泛使用。 (2)根据接头是否匹配PCR free建库可以将接头分为长接头和短接头。 长接头又称为完整接头:包括P5/P7+Index序列+Read 1/2,完整接头通过TA克隆的方式连接到DNA片段之后,可以直接上机测序(但是当DNA量不够时还需进行PCR扩增使得产物达到一定的量方可上机测序)。 短接头又叫不完整接头:通过TA克隆方式连接到DNA片段上后,必须与短接头互补的引物进行PCR扩增,扩增就有了完整接头,然后才能上机。也就是说短接头一定要通过PCR扩增,成为完整接头之后,才能上机测序。 05 身份证Index的要求 Index的选择需满足两个原则:碱基平衡和激光平衡 1.碱基平衡:指Index序列的复杂度和平衡度。 复杂度指的是碱基的种类的多样(A、T、C、G四种碱基都要有的起);平衡度指的是碱基之间分布比例的均衡(各碱基之间的比例接近25%)。需要注意的是碱基的平衡是指多个Index之间的平衡,而不是单个index内部的碱基平衡。 2.激光平衡:假如碱基不平衡,那么就搞激光平衡。激光平衡是指在一组Index序列中需满足每个碱基位A + C =G + T,因为在illumina测序仪中,A和C两种碱基共用一种激光,由波长660nm的红激光激发;G和T共用一种激光,由波长532 nm的绿激光激发。 来源:上海翊圣生物科技有限公司 06 RNA的提取和纯化技术07 DNA分子的结构和复制及RNA转录08 DNA与RNA的比较及转录09 二代测序(NGS)技术介绍杨柳岸,晓风残月。 NGS测序样本前处理自动化:完成核酸片断化、文库构建与捕获 |
|