分享

NGS 测序十年记:从第一台测序仪的诞生到后起之秀 PacBio

 elabman 2015-12-03



第一台测序仪的诞生




从 454 生命科学推出第一台新一代测序仪以来,一晃十年过去了。这十年,正是基因组学高速发展的十年。我们看到了新仪器接踵而至,也看到了新技术不断问世,让人脑洞大开。从当初耗资 30 亿美元的人类基因组计划,到如今 1000 美元的人类基因组,测序技术经历了怎样的发展?我们在此作一回顾。


454 生命科学(454 Life Sciences)可谓新一代测序技术的奠基人。它的创始人是生物界的传奇人士:Jonathan Rothberg。正如苹果砸牛顿一样,任何发明创造的背后都有个故事。Rothberg 的版本是这样的。当年,他的儿子一出生,就被送进婴儿特别护理病房接受治疗,那时 Rothberg 整天都在担心自己的孩子会不会天生有什么问题。于是,他下定决心要开发一种快速便宜的测序技术。




2005 年,Rothberg 的梦想终于实现了。454 生命科学等研究人员于 7 月在《 Nature 》杂志上发表了一篇题为“Genome sequencing in microfabricated high-density picoliter reactors ”的文章,介绍了一种边合成边测序(sequencingby synthesis)的技术,比传统的 Sanger 测序快 100 倍。


这种技术合成 DNA 片段,并将它们分开平行测序,再重新组合成基因组。它的效果也通过生殖支原体(Mycoplasma genitalium)这种细菌的测序而得到了证明。在 4 小时内,研究人员就完成了测序,且准确性超过 99.99% 。454 的方法之所以引起轰动,不仅是因为这个成果,而是因为它绕过了 Sanger 测序的限制,未来有望使测序时间和成本进一步下降。


人类基因组计划的首席科学家 Francis S. Collins 博士对此评价道:“测序技术需要变得更小、更快速、更便宜,才能满足个性化医疗的承诺。我们期待这种创新技术能够应用在生物医学研究,并最终应用于临床。”的确,随着通量提高 100 倍,这种技术开辟了测序的新用途,包括个性化医疗、传染病防治等。


不久之后,454 生命科学与罗氏合作,正式推出了 Genome Sequencer 20(GS20)系统。这是第一台商业化的新一代测序仪,为高通量的 DNA 测序提供了一个方便的方案。它在 PicoTiterPlate 上开展大规模并行测序,采用先进的图像处理,并利用独特的数据分析,以获得高质量的结果。样品制备之后,GS20 能够在 5 小时的运行内至少测序 2000 万个碱基(20 Mb)。


这台仪器甫一上市,就引起了科学界的关注。尽管价格不菲(50 万美元),但 2005 年总共在全球安装了 20 台,包括 Broad 研究院、Sanger 研究院和 JGI,研究成果也陆续发表。此外,GS20 也荣获了多个奖项,包括 R&D 100 大奖和华尔街日报的 2005 技术创新奖。


在收获掌声的同时,454 生命科学也在对 GS20 系统进行硬件和软件的升级,希望将读长从 100 bp 提高到 200 bp,甚至 400 bp,也力争大幅提高通量。这些后来都实现了。最初的一年,454 并没有碰到强劲的对手,但随着 Solexa 仪器的问世,这一局面很快被打破。


Solexa 闪亮登场




早些年,人们在谈到新一代测序仪时,经常会提起 Solexa,而不是 Illumina。这是一家低调的公司,规模也不大,但是测序技术却非常新颖。它开发出的测序仪,在通量上领先于其他竞争产品。收购 Solexa,也成为 Illumina 的转折点,从此踏上高速发展的道路。


Solexa 成立于 1998 年的夏天,创始人是剑桥大学的化学家。它的核心是可逆测序技术,也就是在大规模并行的芯片上,通过直径为 1 微米的孔,每次测序一个碱基并成像。他们的目标是每次运行能获得 10 亿个碱基(1Gb)。这在当时简直就像天方夜谭。风投告诉他们,如果能实现 1 Gb 的十分之一,就已经很不错了。


之后经过一系列改进,并从瑞士测序公司 Manteia 处收购了簇生成技术,也就是将 DNA 链扩增成含有 1000 个相同分子的簇,Solexa 的测序仪渐入佳境,读长也从最初的 12bp 稳步提高到 25bp。最后,研发人员开始建立 IT 系统,来管理和评估数据的质量。至此,Solexa 的测序仪已初具雏形。


2005 年初,Solexa 决定测序第一个真正的基因组,著名的 ΦX174 噬菌体基因组。2 月的一个周末,生物信息学家 Clive Brown 发邮件给同事,标题上写着:“我们做到了!”噬菌体基因组被重新测序,且准确性超过 99.9%。有趣的是,他们并没有发表文章。他们感兴趣的是专利。


过了一年,Solexa 正式推出 1G Genetic Analyzer,宣称能够在 3 个月内以 10 万美元完成人类基因组测序。对于 10 万美元的数字,CEO John West是这样解释的:“人类基因组有 30 亿个碱基,重测序的覆盖度大约是 15 倍。因此需要 45 亿个碱基。如果每个运行要两天,那就是 90 天。流动槽的定价将从 3000 美元降至 1000 美元,因此 45 个流动槽是 45000 元。如果考虑到仪器价格(40 万美元)和五年折旧,那么三个月就是 20000 元。”


不过,West 的承诺在 2006 年并没有实现。对于 30bp 的读长而言,人类基因组的组装是一项巨大的信息学挑战。当时,Sanger 研究院每周已经产生了 10-15 Gb 的数据。Clive Brown 开发出一款名为 the pipeline 的软件给客户使用,之后,它演化成为大家熟悉的 CASAVA。


2006 年 11 月,Illumina CEO Jay Flatley 向 Solexa 发出了 6.5 亿美元的收购要约,以补充 Illumina 当时的基因分型和基因表达平台。此次收购被剑桥大学新闻办公室认为是“剑桥大学最成功的商业化故事之一”。Flatley 表示:“这次收购可能会被证明是最成功的收购之一,以及生命科学史上的新技术引进。”


Flatley 的预言并没有错。到 2007 年 2 月,Illumina 已经售出了 12 台仪器,之后又接到了几十个新订单。尽管它的读长远不及 454,但通量和每 Gb 的成本相当有利。到年底,GA 仪器的安装数量已超过 200 台,并在 2008 年再次翻番。2008 年春天,Illumina 推出了 GAII,硬件和软件都经过升级,读长提高到 50bp,通量达到每次运行 3 Gb。彼时,他们终于达到了 10 万美元人类基因组测序的里程碑。


之后的故事大家也许都听过了。2008 年 5 月,荷兰科学家利用 GA 首次绘制出女性的个人基因组图谱。11 月,《 Nature 》杂志发表了三个人类基因组图谱:炎黄一号–第一个亚洲人图谱;第一个癌症病人图谱;第一个非洲人图谱。这都有 GA 的功劳。


当时,Illumina 并非没有竞争对手。除了 454,Sanger 测序的领导者 ABI 也在开发新一代测序平台。Illumina 抢先进入市场,拔得头筹。正如 Illumina 科学家 John Milton 所言,这是 GA 领先 SOLiD 系统的主要原因。“一旦进入基因组中心,每个人都经过培训,那么他们就会坚持使用[这种技术]。”这也是 Sanger 研究院坚持使用 Illumina 平台的主要原因。


当然,ABI 并非等闲之辈,他们也在奋力追赶。


ABI 奋起直追




说起全自动测序仪,Applied Biosystems (ABI) 那是绝对的领头羊,其 3730 旗舰测序仪在人类基因组计划中立下赫赫战功。然而,在新一代测序方面,454 和 Solexa 抢了先机,率先推出了 NGS 仪器。ABI 当然不会作壁上观,让客户的实验室里摆满对手的仪器。


于是,它在 2006 年斥资 1.2 亿美元收购了遗传分析公司 Agencourt Personal Genomics (APG),为的是第二年将新一代测序系统推向市场。APG 的核心技术是 SOLiD (supported oligoligation detetion),其独特之处在于以四色荧光标记寡核苷酸的连续连接合成为基础,取代了传统的聚合酶连接反应,可对单拷贝 DNA 片段进行大规模扩增和高通量并行测序。


SOLiD 系统原本计划在 2008 年推出,但 ABI 扩大了研发团队,努力提高通量和读长。同时,早期试用客户也对这个系统给出了积极的反馈。因此,ABI 在 2007 年美国人类遗传学协会的年会上正式推出了 SOLiD 系统。仪器标价为 60 万美元,包括辅助设备和计算机,高于 454 和 Solexa 的仪器。


就当时而言,SOLiD 系统是通量最高的新一代测序平台,每次运行可以产生 4Gb 的数据。此外,由于它采用双碱基编码技术,在测序过程中对每个碱基判读两遍,能够区分测序错误和多态性,故原始数据的准确性接近 99.95%,高于其他的新一代测序平台。这也成为它的主要卖点之一。


2008 年,在 Illumina 宣布将人类基因组测序费用降至 10 万美元后不久,ABI 就宣布,利用 SOLiD 测序平台,人类基因组的测序成本低于 6 万美元。这个价格包括样品制备以及测序试剂的费用,但不包括人工和仪器折旧成本。而在一年前,454 生命科学对诺贝尔奖得主 James Watson 的基因组进行测序,费用接近 100 万美元。


在 ABI 科学运营高级主管 Kenvin McKeman 的指导下,科学家们采用 ABI 的 SOLiD 系统对国际 HapMap 计划中包含的一个人类 DNA 样本进行重新测序。SOLiD 系统总共运行 7 次,产生 36Gb 的序列数据,相当于 12 倍的覆盖度。单次运行最高可产生高达 9Gb 的数据,领先于其他测序平台。


McKernan 表示:“我们相信这项研究验证了新一代测序技术的前景,这些技术降低了分析人类基因组信息的成本,提高了精确度和速度。每个技术里程碑都使我们向着个性化医疗的方向迈进。”


至此,454、Illumina 和 ABI 在新一代测序领域形成了三足鼎立的局面。正是这种你追我赶,让人类基因组图谱的绘制成本大大降低,时间也大大缩短。不过,Illumina 率先进入大型的基因组中心,抢占了先机。此后它又推出了高通量的 HiSeq 系列,在通量上领先于 SOLiD。因此,ABI (及后来的 Life Technologies) 始终无力追赶。根据 Frost & Sullivan 对 2010 年 NGS 市场份额的统计,Illumina 占 69%,Life Tech 占 16%,Roche 占 15%。


好在,Life Tech 高瞻远瞩,放眼快速经济的测序市场,在 2010 年收购了 Ion Torrent 公司。尽管这种半导体测序仪未必适合 30 亿个碱基的人类基因组测序,但却是更多小型实验室的理想选择。


后起之秀 PacBio




在新一代测序技术崛起的早期,市场主要被 Illumina、Life Tech 和 Roche 这三家公司占领。偶尔也有一些新的测序平台出现,但大多是雷声大雨点小,不久便没了下文。面对这些强大、成熟的系统,新平台要想站稳脚跟,的确不是件容易的事。


在 2010 年的 AGBT 年会上,Pacific Biosciences 的测序仪吸引了众人的注意。这台名为 PacBio RS的测序仪被称为第三代测序平台,而有别于之前推出的二代测序平台。至于什么是第三代测序,PacBio 当时的 CEO Hugh Martin 是这样解释的,“它就是在第二代测序(通量、成本)的基础上添加非常长的读长、极低的试剂成本,以及快速的运行时间”。


的确,PacBio RS 系统有着其他系统无可比拟的读长,超过 1000 个碱基。这是因为 PacBio 的单分子实时 (SMRT) 测序反应是最接近天然状态的聚合酶反应体系,最大限度地保持了聚合酶的活性。此外,样品制备非常快速,只需要 4-6 小时,而不是几天。制备过程不需要 PCR,从而减少了错误和偏向。从样本制备到测序,所需的时间还不到一天。


对于重测序而言,短读长也许不是大问题,但是对于 denovo 测序,这可让人们吃尽苦头。例如,韩国极地研究所的 Hyun Park 在测序一种 GC 含量高达 71% 的极地微生物时发现,即使利用 Illumina 平台进行 200X 深度测序,仍无法获得完整的基因组图。组装时产生了 185 个 Contig,而且缺口数量太多,根本无法通过 Sanger 法有效补齐。他们只好求助于 PacBio,而后仅用 15X 覆盖度就能组装得到 26 个 Contig,最终获得了完整的基因组信息。


随后,《 Nature Methods 》上发表的一篇文章又再次让 PacBio 成为关注的焦点。研究人员利用 SMRT 技术,直接测定了 DNA 的甲基化,这是二代测序技术无法实现的,因为它们在测序前需要 PCR 扩增,一扩增这些修饰标记就被置换而消失殆尽了。SMRT 技术利用 DNA 聚合酶的动力学特征,对碱基掺入时产生的停顿间隔脉冲信号足够敏感,可区分 12 种以上不同类型的碱基修饰。这些信息也帮助解析了欧洲大肠杆菌疫情的元凶 E.coli O104:H4。


然而,PacBio 也受到高错误率的困扰。人们一听到 85-87% 的原始准确性就吓坏了。虽然 PacBio 也澄清,这是由于在测序过程中单个分子信号弱,偶尔会出现信号难于分辨的情况。出错几率是随机的,与序列长度、序列组成无关。只要提高循环次数,就能够提高准确率。不过,PacBio 的业务还是一度陷入低迷,股价在 1 块多徘徊。


2012 年,事情开始出现转机。冷泉港实验室的 Michael Schatz 开发了一种纠错算法,用二代测序的短读长高精确数据对三代长读长数据进行纠错,这种称为“混合纠错拼接”的算法发表在 7 月的《 Nature Biotechnology 》上。通过混合纠错法,他们发现“数据几近完美”。


这种方法融合了二代测序和三代测序的优势。“对于短读长,哪怕无限制地提高覆盖度,也不能解决复杂区域的测序问题。但长读长可以跨越这次复杂区域,因此不需要太高的覆盖度就可以对付。同理,长读长也可以用于检测并鉴定单倍体型和转录本的可变剪切,”Schatz 谈道。


第二年,PacBio 发布了新版本的测序仪 – PacBio RS II,平均读长达 5,000 bp,最长读长超过 20,000bp,且通量较之前的版本增加一倍。随着硬件和软件的不断升级,订单数量也开始增加。到 2013 年底,PacBio 更与 Roche 合作,联手打造一款临床测序产品。此后,引用 PacBio 系统的研究成果不断在各种刊物上发表。


Illumina 超高通量测序平台 HiSeq X Ten 的上市也为 PacBio 带来了新订单。韩国公司 Macrogen 和 J. Craig Venter 的 Human Longevity 在安装了 HiSeq X Ten 系统之后都购买了两台 PacBio RS II 系统。他们在开展大规模人类基因组测序研究时,希望利用 PacBio 的长读长来弄清结构变异及其他复杂区域。


至此,PacBio 完成了一次漂亮的逆袭。它凭借自身的独特优势,在竞争激烈的新一代测序市场上站稳脚跟,并带来丰硕的研究成果。当然,仪器仍在不断升级。最新型号的 Sequel 测序仪将在明年上市。

转自《生物探索》


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多