分享

为基因组测序鼓与呼

 kibcat 2023-06-23 发布于美国
随着PacBio公司在去年的重要技术升级,基因组测序迎来了又一个春天。这一技术在各个物种中的应用,以及各类重磅研究也如雨后春笋般涌现出来,长期占据顶尖学术期刊的版面。对于顶尖期刊的文章,很多人还是很喜欢的。但是看多了,容易产生审美疲劳。疲劳之后,容易产生逆反情绪,甚至批判基因组测序的工作,认为没有价值。我很能和这种批判的情绪产生共鸣,但同时,我仍为基因组测序工作鼓与呼,呼吁更大规模、更好的测序。
很多人“批判”的一个可能原因是,认为这些论文只是“堆数据”,没有特别的科学发现和结论。我想,这个批判是有道理的。但是,如果我们都随着这个批判呼啸而过,就忽视了论文本身的价值。而论文最重要的价值就是“堆数据”,实际上,这一价值被大大低估了。
这里,我想好好再说道说道数据的价值:3亿多年前,地球上气候温暖湿润,大片的沼泽,蕨类长成参天大树,形成森林。空气中二氧化碳浓度由原来的8倍,降到接近现在的水平,由此可以想象,当时地球上绿色植物的盛况。这一地质时期,被称为泥炭纪。3亿年后的近代,煤炭作为动力,解放了人力,大大提高生产力。由此,人类一发不可收拾,科学、技术犹如相互驱动的齿轮,推着整个世界滚滚向前。科学技术也深刻改变了地球,甚至地质上,人们给这个时期起个新名字——人类世。纵观近代所有科学的进步,是煤炭点燃了这一切。大量产生的基因组数据就是泥炭纪野蛮生长的植物,它们必然会成为引爆生命领域科学大发展的煤炭。
我相信很多人都认同基因组数据是煤炭这一观点。我们一部分焦虑来自于,只看到植物不断野蛮生长,看不到蒸汽机。我想,一方面,看不到蒸汽机的时候,我们就安心赞美植物旺盛的生命力就好了,可能我们现在处于“泥炭纪”。实际上,我们走得远比这个快。组学大数据类研究一个主要的问题是,数据太多,分析能力跟不上。去把这么多数据分析清楚,可能根本就不是人干的事情——或许机器可以干。AI技术目前已经蓬勃发展,已经在诸多领域引领了革命。那么,基因组学AI还会远吗?一旦组学AI成型,它就会成为一个吞噬数据的巨兽。我们拿在手上压得要死的数据,在它那儿可能还不够塞牙缝。
我们可以尽情畅想一下,组学AI降临之后,会带来什么?我自己能想到的,人类基因组数据会同其他组学数据会被吃下去,会告诉我们准确的致病突变,带来精准的诊断和治疗——精准医学会实现。基于人类和模式物种的研究范式,以及前沿的分子生物学、生物化学知识,无需人类低效率的“搬运”,会被快速覆盖到其他物种。其它物种的研究会上升到一个前所未有的水平。我们对个体发育过程、物种起源、生命之树的理解也会实现巨大飞跃……
畅想归畅想,但我们不能坐等未来降临,而要积极迎接未来。为了迎接未来,我想可以把生命科学研究分为两个大方面:一是“算法型”研究;一是“数据型”研究。“算法型”研究就是发现新知识、新模式、新规律。这可能包括传统的生物学研究,更多是基于模式生物的一些新颖的研究,也包括大数据技术等等。最终这些知识成为“组学AI”的大脑。而“数据型”研究,主要为“组学AI”提供“粮食”。“算法型”研究的重要性和优先性无须赘言,但我更想谈一谈“数据型”研究。
目前,“数据型”研究还远远不够,还需要更快、更大、更多、更好。“数据型”研究的目标是要把地球上每个物种都测序,一些人类感兴趣的物种还需要测大量群体。最好,地球上的生物我们每年或者每隔几年测一下,做一个存档。我们不仅要考虑现生的,我们也需要加大古DNA测序,把百年、千年、万年前的DNA也测了。仅仅产生基因组学数据是不够的,还需要转录组、蛋白组、转录组、表观组,“所有组”……
要实现这一宏大目标,目前的组织形式,对于“数据型”研究来说,显然是不够有效的。原因是这样的:我们在做“数据型”研究的时候,不够纯粹。数据产生了,最重要的事情本来已经做完了。但是为了发文章的需要,得强行挖掘数据,做一些由“组学AI”完全可以替代的工作,耗费了大量时间。一些论文“为赋新词强说愁”,对数据强行解读,造成了人为扭曲,对作者和读者都带来了不必要的痛苦。这些都是比较大的内耗。
为了消除内耗,可以有一个体制上的创新。首先我们加强建设几个组学数据中心,负责DNA提取和测序,以及测序数据的在网络上的维护。类似于测序中心 NCBI综合体。研究者方面,负责提案,告诉测序中心,希望测什么,为什么测,具体如何测。测序中心接到提案后,只审查一点:这个数据有没有人测过?只要没测过,全部批准。提案通过后,研究者准备样品,送测序。测序完成之后,研究者只写一个研究材料和测序数据的描述性文档,数据则交给数据中心处理,以最科学的方式存档和分享。
我们还可以办一本杂志,就叫《生命数据》,专门发表研究者的描述性文档。这本杂志只发数据描述性内容,不要任何深入分析和结论。如果研究者基于测序有进一步的研究和发现,需要另外投稿其他杂志。这本杂志专注于只发表那些最有趣、最重要的数据集。由于所有后续基于数据集的研究都要引用这篇描述性文档,所以这本杂志的影响因子会超过生命领域顶尖期刊,研究者会争相在《生命数据》杂志上发文。《生命数据》也会一跃成为领域最重要期刊之一。通过这样一番操作,可以调动各方面研究人员的积极性。更重要的是,发挥出每个人真正的专业特长。
这番操作,也会带来数据以最快的速度产生和共享。其它专业特长的研究者能够基于新数据去做研究,又会进一步带动“算法型”研究。更重要的是,这种形式,能更有效为“组学AI”巨兽积累口粮。

Image

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多