第一章 主流NGS技术(某曼技术)有个秘密, 它对于样本的碱基复杂度有一定要求。 如果文库全部由序列相同的DNA片段(克隆)组成; 或者文库的局部碱基序列一样(如PCR引物、接头、barcode等部位); 或者所谓的文库就是接头二聚体,或者引物二聚体。 其中碱基序列相同的部位,就是碱基复杂度低的部位。 这些部位NGS测序会出问题。 典型的图谱如下: 这个怪图,是怎么形成的呢? 第二章 我们从一代测序开始,试图理解它的形成原理。 一代测序的模板DNA不是文库,而是克隆。也就是说,一代测序的“文库”全部由序列相同的DNA片段组成。比如: AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC 尽管有这么多分子,但是每个DNA分子的碱基序列是一样的,是一组克隆,其测序图谱是这样的,就像一个分子一样: 【本文中的碱基序列是随意编制的,与测序图不匹配,仅为帮助理解举例。下同。】 如果模板是两种DNA分子等摩尔混合在一起,比如挑克隆时不小心把旁边的克隆也挑了,两个克隆的DNA被提取在同一个试管里(其实,这种情况我们一般称之为污染),假设其碱基序列是这样的: AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC AGACTAGCTAAGACTAGCATACTACAGTACGTACAGTAC CATGATCCTAGCTACTACGTACCTAGCATCTATCCTACCA CATGATCCTAGCTACTACGTACCTAGCATCTATCCTACCA CATGATCCTAGCTACTACGTACCTAGCATCTATCCTACCA CATGATCCTAGCTACTACGTACCTAGCATCTATCCTACCA 其测序图谱: 每个位置都是杂合子,除了碰巧有些位置是纯合子以外。 如果模板是3种DNA等摩尔混合(污染): 如果我们把无数种DNA混合在一起,那场面一定很……其实也不壮观,反而波澜不惊: 注意:这张图的纵坐标换成了%Base。 我觉得,就是保留荧光信号强度,其实也说得通。 第三章 现在翻篇,进入NGS世代。 假设一个文库的前70个碱基序列一模一样,后80个碱基各不一样,测序图谱就是下图这样: 要模拟(构建)这种特殊情况,一点也不难。具体操作流程如下: 所有样本都使用同样序列的引物做PCR, 把PCR产物构建成NGS文库, 然后把这些文库混合在一起进行NGS测序。 假设上游引物的长度是70碱基,你就会得到这样一张图。(图中我把引物写成接头了,汗) 其实,这种劳动我们不称之为构建,称之为——犯错。 如果文库是接头二聚体,看下图: 把read 1和read 2按顺序排列,中间再加上一段7碱基或者9碱基的barcode read,得到下图(为了简化,只显示一种碱基): 同时展示4种碱基: 第四章 这点内容,大家早就知道了, 不需要这么啰嗦…… ……好吧。 |
|