分享

Cancer Cell|时代新范式-下一代组学分析智能机器人

 秋水共蓝天 2020-10-01

生物医学传统上是一个实验科学,尽管它并不排斥理论研究和计算模拟,甚至往往受益于后者的贡献:远有半个世纪前木村资生(Motoo Kimura)等人建立的具有坚实数学基础和完备理论框架的分子进化中性理论(neutral theory)【1】深刻地丰富和修正了自然选择的内涵,近有上个世纪末Christopher Burge等人基于隐马尔科夫模型开发的基因结构预测算法【2】显著推进了人们对基因功能表现形式的认知;但直到进入新世纪之后,尤其是以人类基因组的发布为里程碑,生物医学领域内积累的数据的尺度和丰富性、及相适应的计算方法的多样性和延展性才真正迎来革命性的加速变化。这一发生在生物医学领域内的整体研究范式的演变如此激进和深刻,以至于研究者们特意给这个时代赋予了一个名号——组学时代(omics era)

所谓组学,即是对具有内在统一属性的生物学各层级研究对象的系统性归纳。随着研究界对生命密码的解析逐渐深入和先进实验及计算方法的不断更迭,组学研究从最初以基因组为核心发展出包含转录组、蛋白质组、代谢物组、表观遗传组、蛋白互作组等多模态相辅相成的丰富内涵。相应地,在科研实践中,以产出大规模组学资源为目的的大型联合体项目层出不穷,其贡献的数据深度与广度往往是前所未有的。在此仅举几例:

  • 从2005年建立并发展至今的癌症基因组图谱(The Cancer Genome Atlas, TCGA)计划陆续对跨越33种癌症类型的具有多样化临床表现和组织病理学及分子特征的超过一万个病人的肿瘤样本进行了全外显子组、全基因组、RNA、DNA甲基化、miRNA、染色质开放性等多组学刻画,为癌症分子生物学研究贡献了极为珍贵的资源,已然成为肿瘤大数据研究的金标准数据库【3】
  • 2012年, Broad研究所、Dana-Farber癌症研究所和Novartis合作发布了“癌细胞系百科全书”(Cancer Cell Line Encyclopedia, CCLE),对覆盖三十多种组织来源的947种人类癌细胞系进行了大规模深度测序,整合了DNA突变、基因表达和染色体拷贝数等遗传信息【4】;2019年,该项目再次发布重大更新,增加了基于RPPA的数百种蛋白定量、基于RNA-seq的可变剪切及miRNA定量、基于RRBS的启动子甲基化定量、以及基于代谢组学的数百种代谢物定量等【5】。
  • 起始于2010年的基因型-组织表达(Genotype-Tissue Expression, GTEx)项目对近一千名捐献者的跨越54个组织类型的超过一万五千个样本进行了转录组测序和全基因组测序,从而描绘出迄今最为详尽的人类基因表达模式(包括基因表达量和可变剪切模式等)与DNA序列变异之间的关联图谱,亦即数量性状基因座(quantitative trait loci,QTL)研究,对研究界深入理解人类正常组织生理的分子多样性、疾病的遗传基础和基因调控的分子进化特征等均做出了巨大的推动【6】。
Cancer Cell|时代新范式-下一代组学分析智能机器人

在数据爆炸式增长的趋势之下,伴随而来的是数据科学和统计学方法在生命科学研究中的广泛应用:从基于C语言、perl、Python、R等所编写的“单打独斗”的实验室自制数据处理脚本(script),到依赖“群体智慧”合众开发的一系列集成化、规范化的生物医学数据专用计算扩展项目(如Biopython和Bioconductor等),再到由政府部门资助的超大型数据储存、交流和分析平台(如NCBI GEO、EMBL The Expression Atlas和GDC TCGA portal等),见证了生物信息学(bioinformatics)、生物统计学(biostatistics)和计算生物学(computational biology)等新兴学科的全面成熟。与此同时,对数据的公开透明、易获得、可重复等特质的追求作为促进领域整体发展的必要条件而成为了生物医学研究伦理的应有之义。尽管在这种变革之中仍旧发生过以新英格兰医学杂志主编将部分生信工作者斥为“数据寄生虫”(data parasites)【7】为代表的新旧思维的对抗,但这些一厢情愿、缺乏建设性的论调终究抵挡不了生物医学数据化和计算化的大潮【8】。

Cancer Cell|时代新范式-下一代组学分析智能机器人

然而,作为促使当今生物医学研究发生整体前进的核心动力之一,生物医学大数据从来未曾真正地公平、普遍、甚至有效地惠及大部分的生物医学工作者。尽管不排除造成这种局面的原因可能是部分研究者由于个人偏好、实验环境等因素形成的对大数据本身及其所支持的研究范式的排斥;但绝大多数时候,数据和方法的不可接近性作为一种领域内的整体性困境,都是由基于资源和知识限制所形成的各种各样具象或抽象的壁垒所导致的。

为了回应这一挑战,生物信息科学家们在简化生物医学数据分析流程上付出了诸多努力,开发出了各类适应于本地运行的高度封装化的端对端的生物医学数据分析工具和基于网页操作的数据可视化及分析平台。在这方面,获得2020年本杰明·富兰克林生命科学开放获取大奖(The Benjamin Franklin Award for Open Access in the Life Sciences)的哈佛大学华人科学家刘小乐(Xiaole Shirley Liu)教授的课题组是一个典范,其十多年来开发的被应用于转录调控、肿瘤免疫、高通量基因筛选等多个领域的源代码公开的生物信息学方法(如MACS、MAGeCK)和便捷式网页数据库及分析平台(如TIDE、TISCH)为推动生物信息学普及化做出了重要贡献。

Cancer Cell|时代新范式-下一代组学分析智能机器人

在可预见的未来,伴随着单细胞测序技术、大规模并行筛选技术和空间转录组测序技术等高通量多模态实验技术的方兴未艾,生物医学领域的数据规模将继续呈现指数级增长模式。对于缺乏数据科学专业训练的以实验技术为主导的研究者个人或课题组来说,如何更便捷、更高效地通过对现有大规模数据进行挖掘和分析来设计课题、产生假说、验证结论,是一个关系到科研生产力整体发展的重要话题。前述提到的普及化分析工具和平台往往在分析模态的多样性和灵活性上有诸多限制,并且对实验生物学研究者仍然提出了掌握各类常规操作模块或分析界面的技术性要求。另外,尽管与专职生物信息学研究者进行合作在当下的生物医学研究界已经成为一项常规操作,但合作双方在课题思路上的交流屏障、在数据分析方向上的分歧、甚至是在作者署名中的争议等问题仍旧在很多时候阻碍着这种工作模式的进展。

2020年9月24日,美国MD安德森癌症研究中心梁晗课题组在Cancer Cell上发表了题为Next-generation Analytics for Omics Data的评论文章,详细阐述了组学时代生物医学研究者在数据分析方面面临的挑战和可行的解决方案,并介绍了基于自然语言和人工智能逻辑开发的下一代组学数据分析平台——DrBioRight。这项工作由课题组成员李军、陈虎、王雨濛和陈玫如等共同完成。

Cancer Cell|时代新范式-下一代组学分析智能机器人

在该研究中,作者创新性地提出以自然语言交流作为生物学数据分析的基本逻辑框架,从而将分析平台的角色从被动式的、充满局限的“冰冷机器”转换至主动式的、可充分延展的“科研伴侣”。作者总结了下一代组学分析范式应该具有的五大特征——自然语言理解、人工智能、透明度、移动端及社交媒体友好和众包(crowdsourcing)。具体而言,一个智能化的分析平台要能够实现1)准确识别不具有专门技术性知识的用户所提出的分析请求所对应的标准化分析流程;2)帮助用户探索和理解与任务相关的组学数据和分析结果;3)通过稳定用户群的贡献保持对组学数据和分析方法的及时更新;4)经由用户对分析质量的反馈不断修正和更新平台性能;5)与智能移动平台和社交媒体实现良好匹配,从而为分析流程增加更多的灵活性。

Cancer Cell|时代新范式-下一代组学分析智能机器人

基于上述对生物医学数据智能分析平台的性能期待,作者开发了一个以自然语言理解和人工智能交互为核心的下一代组学分析工具——DrBioRight。作者们为DrBioRight设计了一个极为简洁的交互界面,其仅仅由一个输入框和一个输出框构成。对于用户以自然语言形式输入的分析请求,DrBioRight将基于其自然语言处理模块来标记其中的语义实体,预测出与之匹配度最高的分析任务。然后,DrBioRight将调用特定的分析模块,识别相关的数据集,并检查是否填写了所有必需的参数。计算任务在得到用户确认后会被提交至云计算节点进行处理。任务完成后, DrBioRight将调用适当的可视化模块,以通常为交互式表格或绘图的形式将结果返回至用户。与此同时,DrBioRight将要求用户为每个成功执行的作业评分,并利用收集到的用户反馈进一步改善自身的NLP和AI模块的性能。

Cancer Cell|时代新范式-下一代组学分析智能机器人

DrBioRight代表了以自然语言和人工智能交互为核心的下一代组学数据分析范式的首个尝试,其背后蕴含的是对组学数据分析流程去中心化、去黑箱化的研究伦理价值的追求,和对生物医学研究领域与大数据时代发生深度融合从而惠及每一个普通研究者和更为广泛的大众的展望。

原文链接:

https:///10.1016/j.ccell.2020.09.002

制版人:SY

参考文献

1. Kimura, M. Evolutionary rate at the molecular level. Nature 217, 624–626 (1968).

2. Burge, C. & Karlin, S. Prediction of complete gene structures in human genomic DNA. J. Mol. Biol.268, 78–94 (1997).

3. Hutter, C. & Zenklusen, J. C. The Cancer Genome Atlas: Creating Lasting Value beyond Its Data. Cell(2018) doi:10.1016/j.cell.2018.03.042 .

4. Barretina, J. et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity.Nature 483, 603–607 (2012).

5. Ghandi, M. et al. Next-generation characterization of the Cancer Cell Line Encyclopedia.Nature 569, 503–508 (2019).

6. Consortium, T. Gte. The GTEx Consortium atlas of genetic regulatory effects across human tissues The GTEx Consortium. Science(80-. ). 369, 1318–1330 (2020).

7. Longo, D. L. & Drazen, J. M. Data Sharing.The New England journal of medicine vol. 374 276–277 (2016).

8. Greene, C. S., Garmire, L. X., Gilbert, J. A., Ritchie, M. D. & Hunter, L. E. Celebrating parasites. Nature Genetics vol. 49 483–484 (2017).

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多