随着测序价格的下降,像小麦这样基因组庞大的作物也已经步入“后基因组时代”。目前,外显子捕获测序数据、GBS数据已不再新鲜。去年,Genome Biology杂志上发表了小麦的第一篇基于全基因组重测序数据的研究,其中包括了63份六倍体小麦、25份四倍体小麦和5份二倍体材料(【一作解读】基因组重测序揭示六倍体普通小麦的遗传多样性来源于频繁的种内和种间杂交)。如今,各个实验室和团队也都能或多或少地测了一些中意的小麦品种/品系。相信每位从事小麦研究的同行都不会怀疑小麦的“海量重测序数据时代”即将来临。 这对于我们小麦研究者来说,这是一个充满了机遇的时代;当然,我们也面临着前所未有的挑战。挑战一:计算复杂度。小麦庞大的基因组,相当于玉米的6倍,水稻的40倍。除了大家了然的成倍的测序成本外,小麦重测序数据的存储、传输、比对和分析等计算过程中产生的相当比例的成本,也已经不可忽视了。例如,一个小麦材料的重测序原始数据比对得到VCF的过程中,仅计算机时费用一般不少于200RMB。要知道,计算时间(或空间)复杂度为O(n)的算法已经很“友好”了;相当一批生物信息学算法或工具的计算时间(或空间)复杂度是O(n*log(n))甚至是O(n2)亦或更高。挑战二:无法忽视的数据成本。虽然很多小麦的原始测序数据会上传到NCBI等基因组数据中心(小编在这里推荐各位同行尽量在我国的“国家基因组数据科学中心”#重磅:“国家基因组科学数据中心”落户北京基因组所#上传一份),并随着文章的发表而同时公开,但能有效利用上这些宝贵数据辅助我们的科学研究,还至少需要两个条件:(1)团队中有生物信息学分析经验丰富的成员;(2)还需“支付”数据下载、重新比对、分析、存储等产生的时间成本和经济成本。所以,这两个条件已然是摆在众多研究团队面前的一道门槛。挑战三:人力资源。即使已经拿到了VCF格式(可能这个文件格式对于很多同行来说依然陌生)的数据文件,我们竟不能像分析芯片数据那样——在windows中用Excel“优雅”地打开。希望有效率读取这些“动辄几十个Gb大小”的VCF格式的文件,我们通常得借助Linux环境下的命令行工具了。如此,还有两道 门槛:(1)学会在linux环境下跑程序;(2)知道跑什么生物信息学程序/工具,而且还得玩转每个程序的数十个参数。话说,半年上手,一年入门,两年熟练,然后。。“这位同学,你想不想再读个博士?”挑战四:团队合作。如果一个团队中已经很不容易地培养了一个可以玩转很多生物信息学工具的研究生,那么可以在分析数据方便发挥一些作用啦。但当数不清的、琐碎的、并无关联的数据分析需求不间断地提出时,分析者的研究和分析的效率将大幅降低(友情提醒:写代码的小伙伴通常需要安静的环境才专注哦 ),个人的研究目标也将变得模糊;这也是导致很多做生信的同学常遇到的问题:“我到底在研究什么 ?我是来干什么的 ?我以后拿什么毕业 ?”。对于做实验为主的同学来说,找生信小伙伴帮忙时也会遇到这样的尴尬:“我要不要再打扰人家,再帮我分析下这几个小问题?上次提的分析问题,到现在还没给我。。我好着急。。 我的课题里有很多要分析的基因,要是自己会分析就好了;可是我就是不想学linux/生信/编程。。。。 ”实际上,在“小麦研究联盟”的几个主编小伙伴的共同努力下,借助JBrowse框架并通过不断收集和丰富各组学数据而搭建的“小麦多组学网站”( http://202.194.139.32)平台(【总结】小麦多组学网站介绍),可以满足对基因组、转录组、表观组数据的获取和访问。这已经在很大程度上我们解决了一些数据获取和分析问题上的燃眉之急。但在即将到来的“超大规模”的海量重测序数据面前,新的挑战依然存在。挑战五:超大规模数据的读取效率或可行性问题。(此处涉及计算机相关专业知识,读者慎入。)当几个T甚至几十T的数据存储在高性能计算集群的盘阵中,面对频繁的数据读取需求和访问,如果不对计算方式或程序的性能进行优化,将对内存、I/O带来极大负担。试想如下情景:一个几十G大小、几百万行的文件,实际对一个基因进行分析,仅需要其中的几十行,但依然要从盘阵中读取整个VCF格式的文件并提取部分到内存。如果对于一个基因的查询尚可接受,那么面对成千上万个基因间断式的查询需求时,I/O访问的规模的爆炸式增长将成为“灾难”。如果这时正好有一个计算机背景的专家,或许会“迫不及待”地给你推荐:“为啥不用用已经在计算机领域里非常成熟的SQL等关系型数据库哩”。那么他一定低估了“生物大数据”的“规模之大”和生物数据间“关系的复杂性”。挑战六:meta数据的利用和再分析。实际上,VCF文件中不只有各个位点的基因型信息,还有覆盖度、可信度等等可能对一些特定问题非常必要的信息。如果能同时把这些数据综合利用起来并再分析,才将会更加实际便利于我们的科研日常。挑战七:数据的公开和推进研究之间的矛盾。在水稻、玉米等作物中,已经有一些“中心化”维护的基因型查询数据库了,可便于对已公开发表的数据进行查询。但对于很多完成了不同规模重测序数据的研究团队来说,这里有个“悖论”:我们希望利用这些便于查询的数据库查询自己的手头上数据;但是,我们的数据只有发表以后才会放到这些数据库上;为了发表文章,我们又需要提出各种idea、不断地进行数据查询分析,才能取得科研上的进展。那么,又该如何玩转自己手头上的“私有重测序数据”呢?挑战八:集中式 vs 分布式:哪种形式数据库才是未来基因组大数据的发展方向?如何在支持不同物种、不同类型的基因组数据的查询和整合的同时,提升管理和访问的效率?挑战九:每个物种的研究群体都要重新开发和设计一套数据库吗?在指数模式增长的数据面前,我们实际面临的挑战可能不止于此。正是由于这些挑战的存在,才不断地催生和推进着“生物信息学”新的分析工具和数据库的产生和更迭。在过去的两年中,中国农业大学小麦研究中心(WGGC)的师生们从对小麦重测序数分析中实际需求出发,通过对分析问题的讨论和梳理,经过设计、实现和不断改进,开发了一套可用于大规模重测序数据的高效率查询、归档和快速轻量级分析的数据库系统模型——SnpHub(开源项目主页:http://guoweilong./SnpHub )。 利用SnpHub模型,我们可以对任意已经公开发表(或自有的)的重测序、外显子捕获测序、GBS等数据集快速搭建一个独立的基因组变异大数据在线分析及可视化平台。此类平台可以极大地降低基因组变异数据利用的技术门槛。SnpHub支持变异数据查询和多种轻量级的下游分析及做图。在功能上,SnpHub也对诸如JBrowse、GBrowse、IGV等基因组浏览器的可视化功能的补充。借助SnpHub平台,用户可以通过点击鼠标完成分析,并下载数据表格或矢量图片。当然,SnpHub可以支持包括小麦在内的任何有参照基因组的物种。目前,中国农业大学小麦研究中心团队(WGGC)已经把公开发表六套(共计千余份)小麦及其祖先种的变异数据用 SnpHub 搭建了一个公共分析平台门户——Wheat-SnpHub-Portal(网址:http://wheat.cau.edu.cn/Wheat_SnpHub_Portal/ )供各位同行查询、分析使用。欢迎各位同行点击试用,开启“小麦基因组学大数据时代”的“数据挖掘之旅”。(温馨提示:每个SnpHub实例需要10s-30s的加载时间,请耐心等待;集中访问时有负载限制,还请错峰访问)。 各位同行也可以在发表自己的重测序数据时,顺手用SnpHub搭建一个数据库来把数据公开给同行查询使用。限于篇幅,本次推送仅对SnpHub平台的一些功能进行初步展示。我们也将在后面陆续推送一些具体功能介绍、应用实例和使用技巧。欢迎各位专家、同行、朋友的关注和反馈!SnpHub主页:http://guoweilong./SnpHub/SnpHub使用指南:https://esctrionsit./snphub_tutorial/Wheat SnpHub Portal网址: http://wheat.cau.edu.cn/Wheat_SnpHub_Portal/Wenxi Wang*, Zihao Wang*, et al.. SnpHub: an easy-to-set-up web server framework for exploring large-scale genomic variation data in the post-genomic era with applications in wheat, bioRxiv, 626705. https:///10.1101/626705
|