分享

浅谈二代测序技术中的样本溯源

 生物_医药_科研 2019-02-23

在昨天游侠抛出二代测序如何解决样本追踪溯源的问题后,很多高手都在留言区发表自己的建议,今天非常高兴来自福君基因的老王介绍自己的理解与福君的解决方案,从方案上看从样本一开始就加入FDMB后期数据分析时验证确实是一种非常不错的处理方法。

二代测序(Next generation sequencing,NGS)不同于常规的检测手段,其复杂性体现在从样本处理到文库构建、上机测序、数据分析等各个过程。二代测序从其诞生到现在的10几年里,技术本身已经趋于成熟稳定。

以二代测序领军者Illumina为例,除其本身文库扩增引物上用于区分样本的单端或双端sample index,基于该平台的新技术研发的目的宗旨都可以总结为两个字“溯源”。目前这种“溯源”主要集中在:

1)在文库构建过程中带有用于进行起始模板(Initial template)分子溯源的UMI(Unique molecular identifier)或UID(Unique Identifier)的接头(Adaptor)开发;

2)基于液相杂交捕获的突变检测系统中带有用于还原起始分子正负链的识别标签(如Duplex sequencing以及CAPP-seq等)的接头开发;

3)用于解决Illumina patterned flowcell自身标签跳跃问题的文库扩增引物UDI(Unique Dual indexed primer)体系开发。

而这些溯源笔者认为均是对体系内或微观分子层面或分子本身结构上进行溯源,它们都遵循着一个大前提,就是宏观层面样本不能出错,混淆,否则上述一切高端的基于NGS开发的新技术,新方法都无从谈起。

为了避免各类样本离开取样环境后出现的样本混淆出错等情况,大部分实验室用于科研的样本多通过样本采集管多处注明、建立样本信息单、设置多个生物学重复以及不同处理条件下的标志物等方法来规避样本混淆,出错造成的影响。这些操作不仅复杂也不适用于临床检测。目前主流的用于全外显子突变检测的人类全血样本,当完成采血后,医疗机构用于识别不同病患的贴于紫盖离心管的标签打印错误,大批量全血样本集中寄送,不同医疗机构全血样本集中进场等问题意味着如果在样本到达第三方临检机构进行核酸提取前,无法完成对应样本信息的质控,且保证在样本的NGS之旅中始终有一个恒久稳定的“监督者”全程监控,那么后续结果检测的“准确性”再怎么高,都是枉然。也许有人会说,以Trios这种模式送样,通过后续家系的遗传突变检测结果进行分析或扩增性别特异性基因SRY等手段来校正起始的样本信息亦或通过临检机构采集样本管照片,赋予样本独立的实验室编号并从起始就开始使用这个编号等手段从头杜绝。老王只能说,这种被动的分析、验证或所谓简单的“溯源”往往是医生对结果提出质疑后解决当下问题的方法,只治标不治本。同样,这些做法对于分析结果后续用于做临床诊断是极其不负责任的。

福君基因作为遗传突变NGS检测行业的领先者,针对样本宏观层面和微观层面的溯源都拥有着一套完整的解决方案。今天,老王要跟大家介绍的是福君基因实验室信息管理系统(Fulgent Laboratory Information Management System,Flims)以及福君基因DNA分子标签体系(Fulgent DNA Molecular Barcode,FDMB)。

福君基因实验室信息管理系统以下述四大方面的管理模块:

A)样本接收;

B)核酸提取;

C)文库构建;

D)上机测序;

整合了线上拓扑网络管理系统和线下纸质文档管理系统,细分为实验室照片采集系统,标签打印系统,纸质文档扫描系统,电子版文档存储系统以及最为关键的子系统间的关联系统。该系统赋予每个福君NGS样本1个核心样本识别码(Accession ID)和3个相互紧密关联的识别代码以及全程样本采集管,EP管,PCR plate,对应文库Index的照片:

1. Accession ID.(样本代码);

2. Docset Label(病例,样本信息单文档代码);

3. Test Label(检测Panel代码);

4. Index sheet Label(文库样本index代码);

诚然,配合实验室管理体系,Flims系统可以最大程度保证样本在实验操作者可见的宏观范畴内不出错,不混淆。那么前文提到的全程“监督者”又由什么来完成呢?别急,重头戏来了:

福君基因DNA分子标签体系(Fulgent DNA Molecular Barcode,FDMB),这里要事先声明:福君的分子标签系统不同于广义的DNA分子标签,如果在Google中进行检索DNA molecular barcode for NGS,会发现检索结果中大多数定义的DNA molecular barcode都是指前文提出的UMI(unique molecular identifier),即由不同个数的随机碱基(这里以“N”表示)组成的一段(NNNNNN…..)n序列,通过4的n次方碱基组成(依靠自身突变距离校正)和本身插入片段序列进行体系内PCR扩增之前的initial template的溯源,或应用于去除文库构建中由PCR bias引起的PCR duplicate或用于校正基因表达量或用于诸如16s rDNA sequencing以及TCR&BCR-seq的种群和亚型精细分类。关于此类携带UMI的接头、建库方法,福君基因均具有多项发明专利和自主知识产权,今天不做赘述,以后老王会陆续介绍给大家,我们今天重点要介绍的是:用于Sample Tracking的FDMB。

每一个用于sample tracking的FDMB都是一段Double stranded DNA序列(商业机密,故无法公布序列信息,望谅解),这段序列满足以下条件:

A)序列中不含有任何已知的内切酶酶切位点;

B)与人基因组(包括线粒体基因组)高度不同源;

C)长度略长于捕获探针长度,核酸提取时或可被磁珠吸附或可被保留在核酸吸附柱上;

D)能被福君基因自行设计并由IDT合成的Panel set中的非捕获区间探针特异性结合并洗脱;

E)末端被修饰,以防止核酸酶降解,从而长期保存;

一个特定的FDMB在临床样本接收后提取前,与前文提到的Flims系统中样本核心识别码Accession ID关联后Spike in到采血管中进行sample tagging:

根据上述的序列条件,这段Spike in的FDMB会伴随着样本核酸提取进入文库构建阶段,并在文库构建阶段被构建成具有P5,P7端结构的完整indexed文库分子,到上机测序时一直在体系内稳定存在。测序完成后,对应Accession ID下机数据中的reads,Alignment到同一个Sequencing run或Lane中所有的加入FDMB序列上,即可实现排查样本间污染,样本混淆或错误的溯源。同时,这段序列加入的量较少,相对于整个目标捕获区间,数据量几乎不会有任何损失。

值得一提的是,Spike in相同量FDMB的各个NGS样本,对于极其依赖于Read depth of target region 的全外CNV分析,亦可以作为一个内控指标因素。

以上是关于福君基因NGS样本全程溯源的解决方案,当然,客户送样前样本出现的问题可能还需要医疗机构加强管理和相关部门出台对应的标准和规定。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多