分享

转录组学分析基础 -- 测序技术

 生信药丸 2023-09-18 发布于贵州

焦元小朋友又来投稿了,这次给大伙带来的是转录组数据分析基础。感觉很不错~  - CJ - 陈程杰

转录组的研究对象为特定细胞在某一功能状态下所能转录出来的所有 RNA 的总和,其原始数据便是测序文件,因而了解测序技术对进行转录组学分析具有重要的意义

第一代测序技术

1975 年由 Frederick Sanger 所提出的链终止法以及 1977 年由 Walter Gibert 所发明的链降解法被称为第一代测序技术。

1977 年,Walter Gilbert 和 Frederick Sanger 发明了第一台测序仪,并应用其测定了第一个基因组序列,噬菌体 X174,全长 5375 个碱基。Walter Gilbert 和 Frederick Sanger 也因在测序技术中的贡献获得了 1980 年诺贝尔化学奖。

第一代测序技术大体上是仿照 DNA 合成的原理来进行的,正常的 DNA 合成主要分为以下几个步骤

  • 高温变性、退火

  • 引物与 DNA 单链结合

  • dNTP(脱氧核糖核酸)与引物借助 DNA 聚合酶结合形成单链

  • 合成双链

Sanger 测序技术大致分为以下几个步骤

  • 高温变性、退火

  • 引物与单链(目标序列)结合

  • 在 DNA 聚合酶的作用下 ddNTP、dNTP 与引物相结合形成不同长度的 DNA 片段

  • 通过电泳技术将不同长度的 DNA 片段分开

  • 根据不同长度片段的最后一个碱基拼接得到完整序列信息

实际上 Sanger 测序的核心在于形成不同长度的 DNA 片段。在四个容器中分别加入 DNA 合成所需要的模板链、四种 dNTP、引物和一种 ddNTP,由于 ddNTP 和 dNTP 一样,可以与 dNTP 结合,但 ddNTP 在与 dNTP 结合后便不能再与 dNTP 结合,并且与 ddNTP 结合的位点是随机的,那么在一个容器中放入大量的反应物(ddNTP 只放入一种)便可以得到许多不同长度的序列片段,四个容器分别放入四种不同的 ddNTP 并且分别加入一定比例带有放射性同位素标记的 ddNTP。

随后通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的 DNA 序列。

补充

  • 由于区分长度差距在 1 到几 bp 的 DNA 链,因此需要使用使用高分辨率变性丙烯酰胺凝胶

  • 只需设计一个 5’端引物,在模板 DNA 双链解开后与其中的一条单链的 5’端结合,保证序列能够从特定模板单链的 5’端到 3’端方向延伸

优点

  • 精准度高:Sanger 测序具有很高的精确度,可以达到 99.99%的准确度

  • 可靠稳定:其结果是有可重复性和可验证的

  • 大片段测序:它可以测序长达 900 到 1000 个碱基对的 DNA 片段

  • 较高的数据质量:Sanger 测序可以产生长的读取长度和高质量的序列

缺点

  • 一个反应只能得到一条序列,因此测序通量很低

  • 成本和速度:与新一代高通量测序技术相比,Sanger 测序的成本更高,速度也较慢

  • 不能进行大规模并行分析:Sanger 测序无法达到新一代测序技术的并行分析规模

  • 难以检测某些复杂的基因重排和突变:比如某些结构变异和长串联重复序列

  • 需要大量的 DNA 样本:对样品的数量和质量有较高的要求

第二代测序技术

高通量测序技术 (High-throughput sequencing, HTS) 是对传统 Sanger 测序技术革命性的变革,可以一次对几十万到几百万条核酸分子进行序列测定,因此也称其为下一代测序技术 (Next Generation Sequencing, NGS),高通量测序技术的出现使得对一个物种的转录组和基因组进行细致全貌的分析成为可能。

了解第二代测序技术需要先了解几个必要的概念

  • 基因簇:基因簇(gene cluster)指基因家族中的各成员紧密成簇排列成大串的重复单位,位于染色体的特殊区域

  • cDNA:cDNA 是指互补(有时称拷贝)DNA。特指在体外经过逆转录后与 RNA 互补的 DNA 链。与平常我们所称谓的基因组 DNA 不同,cDNA 没有内含子而只有外显子的序列

二代测序主要分为以下几个步骤

  • 样品制备(预处理)

  • 文库制备

  • 上机测序

  • 数据分析

二代测序的原理也因测序平台的不同而略微有所不同,主要有以下平台

  • 454 焦磷酸法平台 - 边合成边测序技术

  • Solexa 基因组分析仪(Illumina 测序仪) - 克隆单分子阵列技术

  • SOLiD 高通量测序仪 - SOLiD 测序技术

  • HeliScope 测序仪 - 循环芯片测序+单分子测序

二代测序的主要过程:

在对所选样品提取核酸(DNA 或 RNA)后,通过标准方法 QC 检查。如果样品为 RNA,转录为 cDNA。采用酶处理或超声处理,将 cDNA 或 DNA 片段化。优化过程需参考部分片段样本的电泳情况。这些片段会被修复并连到更短的通用 DNA 片段或适配体上。适配体序列适用于测序平台,可在多重测序中识别。在一次运行中,可以同时测序大量带有适配序列的 DNA 片段,也称为测序库。

接下来,通过凝胶电泳或磁珠选择合适大小的片段,以优化测序性能。然后使用 PCR 扩增文库。在涉及乳化 PCR 的技术中,每个片段都与一颗乳化珠结合,为测序簇打下基础。扩增后进行清理步骤,去掉不必要的片段,提高测序效率。

最后,用 qPCR 检查文库以确认 DNA 质量和数量,确保测序样品合适。在加载到测序仪前,或在测序仪上进行文库片段的克隆扩增,具体取决于所选的平台和化学方法。最后根据所选择的平台对序列进行检测和报告。

优点

  • 高通量:二代测序技术能够在短时间内生成超过各种分析的大量序列

  • 较低的成本:由于大规模并行处理,二代测序技术的成本远低于第一代技术

  • 应用广泛:二代测序的应用广泛,包括 SNP 检测、变异检测、表观基因组学、转录组/表达分析等

  • 数据丰富:能够提供关于每个读取深度和质量的信息,它对揭示复杂基因组以及发现稀有/新的转录事件至关重要

缺点

  • 阅读长度限制:尽管随着技术的进步,阅读长度已经增加,但仍然比第一代测序短

  • 偏差和错误:所有的测序技术都是有偏的,会在特定的序列上产生错误

  • 数据处理:二代测序生成的数据量大,需要大量的计算资源和专业的生物信息学技能进行处理

  • 长显性遗传无法测定:由于读取长度的限制,对于大片段的插入、缺失或结构重排的检测存在困难

第三代测序技术

第三代测序技术是指单分子测序技术。DNA 测序时,不需要经过 PCR 扩增,实现了对每一条 DNA 分子的单独测序。第三代测序技术也叫从头测序技术,即单分子实时 DNA 测序。

第三代测序技术原理主要分为两大技术阵营:

单分子荧光测序

代表性的技术为美国螺旋生物 (Helicos) 的 SMS 技术和美国太平洋生物 (Pacific Bioscience) 的 SMRT 技术。脱氧核苷酸用荧光标记,显微镜可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入 DNA 链的时候,它的荧光就同时能在 DNA 链上探测到。当它与 DNA 链形成化学键的时候,它的荧光基团就被 DNA 聚合酶切除,荧光消失。这种荧光标记的脱氧核苷酸不会影响 DNA 聚合酶的活性,并且在荧光被切除之后,合成的 DNA 链和天然的 DNA 链完全一样。

纳米孔测序

代表性的公司为英国牛津纳米孔公司。新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔 来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而 ATCG 单个碱基的带电性质不一样,通过电信号的差异就能检测出通过的碱基类别,从而实现测序。

优点

  • 它实现了 DNA 聚合酶内在自身的反应速度,一秒可以测 10 个碱基,测序速度是化学法测序的 2 万倍

  • 它实现了 DNA 聚合酶内在自身的延续性,一个反应就可以测非常长的序列。二代测序可以测到上百个碱基,但是三代测序就可以测几千个碱基

  • 精度高,达到 99.9999%

  • 直接测 RNA 的序列,既然 DNA 聚合酶能够实时观测,那么以 RNA 为模板复制 DNA 的逆转录酶也同样可以,RNA 的直接测序,将大大降低体外逆转录产生的系统误差

  • 直接测甲基化的 DNA 序列。实际上 DNA 聚合酶复制 A、T、C、G 的速度是不一样的。正常的 C 或者甲基化的 C 为模板,DNA 聚合酶停顿的时间不同。根据这个不同的时间,可以判断模板的 C 是否甲基化

缺点

  • 错误率高:相较于第二代测序,单个读取的准确度降低,错误率较高

  • 成本问题:设备投入的成本高,每次测序的费用也相对较高

  • 数据分析困难:由于测序后得到的读段长、分布广泛,使得数据分析处理难度增加

  • 测序深度问题:相对于其他类型的测序技术,第三代测序技术实现同样深度的覆盖需要更高的成本

测序技术与 RNA-seq

RNA-Seq 是一种高通量测序技术,它利用测序技术对组织或细胞中的 RNA 反转录成 cDNA 文库进行测序。这种技术可以测量不同 RNA 的表达量,发现新的转录本,并通过将转录本映射回基因组来确定转录本的位置,了解剪切情况等遗传信息。RNA-Seq 在生物学研究、医学研究、临床研究和药物研发等领域得到了广泛应用。

RNA-seq 不仅可以用于识别新的转录本、检测剪接位点的变异和新的剪接事件、分析基因的表达差异等,同时也可以与其他生物信息学分析技术(如功能预测、文献挖掘等)结合使用,以发现新的生物学规律和潜在的疾病标志物。

在选择测序技术时,二代测序(如 Illumina 公司的测序平台)因其高通量和低价,常被选为研究转录本的测序技术。而三代测序(如 PacBio 和 Oxford Nanopore 等平台)因其更长的读取长度,可以直接获取完整的转录本信息,尤其适合发现新的转录本,对于研究长的非编码 RNA 和复杂剪接事件具有巨大优势,可以通过对 RNA 样本进行深度测序,可以全面了解基因在转录水平上的表达情况。

参考资料

  • 第一、第二、第三代测序原理

  • 桑格法测序——第一代测序技术

  • 一代、二代、三代测序技术原理与比较

  • 基因测序技术发展历史及一、二、三代测序技术原理和应用

  • 百度百科 - 基因簇

  • 百度百科- cDNA

  • 可逆终止子 – Illumina 统治 NGS 行业十数载的核心

  • 技术 | 一文读懂二代测序

  • 第二代测序原理的详细解析!

  • 百度百科 - 第三代测序技术

  • 第三代测序技术(Nanopore Sequencing)简述

  • 转录组测序技术的应用及发展综述

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多