扩增子测序的最小信息标准和测序规范Minimum information about a marker gene sequence (MIMARKS) and minimum information about any (x) sequence (MIxS) specifications 译者:文涛 南京农业大学 责编:刘永鑫 中科院遗传发育所 Nature Biotechnology [IF:33] 2011-05-06 Articles doi: https:///10.1038/nbt.1823 全文可开放获取 https://www./articles/nbt.1823 第一作者:Pelin Yilmaz1 通讯作者::Frank Oliver Glöckner1,2* (fog@mpi-bremen.de) 其它作者: 主要作者单位: 1 德国马普海洋微生物研究所(Microbial Genomics and Bioinformatics Group, Max Planck Institute for Marine Microbiology, Bremen, Germany) 2 德国不来梅雅各布斯大学(Jacobs University Bremen gGmbH, Bremen, Germany) 3 英国牛津Wallington CEH自然环境研究委员会环境生物信息学中心(Natural Environment Research Council Environmental Bioinformatics Centre, Wallington CEH, Oxford, UK) 4 美国科罗拉多大学博尔德分校,化学与生物化学系(Department of Chemistry and Biochemistry, University of Colorado, Boulder, Colorado, USA) 摘要这里我们介绍由基因组标准协会(Genomic Standards Consortium:GSC)开发的用于研究和发表标记基因序列的标准-标记基因测序的最少信息标准 (the minimum information about a marker gene sequence,MIMARKS)。我们还介绍了一套“environmental packages(环境包)”用于描述生物样本来源- :环境包已经用于已知物种基因组测序样本相关来源记录和标记基因测序(MIMARKS)和其他基组因标准协会指定的标准环境参数记录。最后,为了建立描述测序数据的统一标准,并为科学界提供访问和了解GSC所有信息列表的接口,我们提供了有关任何(x)测序(MIxS)的最少信息标准。采用MIxS标准将增强我们对不断变化的生物圈中自然遗传多样性的能力的认识。 正文如果没有具体的指导,数据库中的大多数基因组,宏基因组和扩增子基因序列将都被是简单的记录无法以指导数据整合,比较研究和发现。即使使用复杂的关键字搜索,当前也无法可靠地检索源自地球上某些环境或特定位置的原始序列,例如,来自世界某个地区的“土壤”或“淡水湖泊”的所有序列数据。因为国际核苷酸序列数据库合作组织(INSDC; 日本DNA数据库(DDBJ),欧洲核苷酸数据库(EBI-ENA)和GenBank(http://www./) 的公共数据库序列的质量取决于作者提交信息的丰富程度,我们认为改变当前现状的唯一方法是建立信息报告标准,要求提交序列需要提供与此相关的信息。这种标准的采用将提高可以从INSDC组织的任何其他数据存储库的测序数据的质量,可访问性和实用性。 GSC先前已经提出了描述基因组序列的标准-“有关基因组序列的最小信息”(MIGS)和宏基因组序列-“有关宏元基因组序列的最小信息”(MIMS)。在这里,我们介绍了这些标准的扩展,用于捕获有关标记基因的信息。此外,我们引入了“environmental packages 环境软件包”用于标准化采样和对特定环境的描述,这适用于所有GSC定义的标准清单和其他测序数据提交标准清单。
我们将“环境(environmental)”定义为样本或者测序物种采集地点或任何位置,例如土壤,空气,水,与人相关,与植物或实验室相关的位置。原始的MIGS/ MIMS清单包括样本采集地点和采样相关信息。但是,如果我们想对样本的背景环境等作更深入的了解就没办法了,而我们这里介绍的“环境软件包”可以解决此问题,并可用于我们定义的MIGS,MIMS和MIMARKS三大标准清单。 我们提出了一个总体框架,即MIxS标准(http:///gc_wiki/index.php/MIxS )。MIxS包括来自先前MIGS和MIMS标准以及MIMARKS,并且还允许使用环境软件包注释样品数据。图1显示了MIxS以及MIxS环境软件包的示意图。 图1:为MIxS 标准的三大子标准及其相关的环境包的详细信息。
扩增子最小信息标准和环境包的发展Development of MIMARKS and the environmental packages 在过去的三十年中,细菌,古菌和真核生物的16S rRNA,18S rRNA和(ITS)为生命树的结构拓扑和不同环境微生物群落结构组成提供了深刻的见解。事实证明,许多其他系统发育标记基因也很有用,包括RNA聚合酶亚基(rpoB),DNA解旋酶(gyrB),DNA重组和修复蛋白(recA)和热休克蛋白(HSP70)等;不仅仅是系统发育信息,标记基因还可以揭示关键的代谢功能。例如:氮循环(amoA,nifH,ntcA),硫酸盐还原(dsrAB)或磷代谢(phnA,phnI,phnJ)。在本文中,我们将所有用于描述自然遗传多样性的系统发育和功能基因(或基因片段)定义为“标记基因”。对于之前建立MIGS/MIMS列表,MIMARKS加入了两种参数列表。MIMARKS调查(用于未培养的多样性标记基因调查)和MIMARKS标本(用于从可通过标本识别的任何材料获得的标记基因序列)。 MIMARKS扩展采用由Consortium for the Barcode of Life(CBOL)开发的标准。因此,这两项清单可以普遍应用于任何标记基因,从小亚基rRNA到细胞色素氧化酶I(COI),到所有物种分类单元,以及从个体到复杂群落的研究。 表1 MIMARKS清单的核心项目,以及类型,描述和需求状态
群落主导的调查结果Results of community-led surveys 我们已经进行了四次有关扩增子基因的相关调查,来确定研究人员对扩增子测序相关核心指标描述的偏好性。能源部联合基因组研究所和SILVA的调查侧重于标记基因的一般背景特征,而核糖体数据库项目(RDP)侧重于rRNA基因的来源,Terragenome联盟侧重于土壤宏基因组项目的背景数据( 补充结果1)。以上调查信息与2005年召开的国际海洋微生物普查(ICoMM)工作组建议的大量信息结合起来。这些信息丰富了MIMARKS标准清单和并构成了环境包的主体部分。 对已发表发表的数据的总结Survey of published parameters 我们从SILVA和ICoMM数据库MICROBIS(微生物海洋生物地理信息系统,http://icomm.mbl.edu/microbis/ )中检索,并总结了这些已发表的rRNA基因研究项目,以进一步补充各个环境包中需要纳入的背景描述数据。我们从SILVA种查找了39个项目和40多个ICoMM测序项目的补充数据,并构成了环境包的核心组成(补充结果1)。 随后我们分析了SILVA数据库中包含的rRNA基因序列与INSDC统计的数据相关信息进行比对(补充结果1)。发现,大于10% 16S rRNA基因序列都共有如下信息:纬度和经度,采集日期或PCR引物之类的基本信息。 MIMARKS信息列表The MIMARKS checklist MIMARKS清单为用户提供了一个“电子笔记本”,其中包含测序相关的一切附加信息的集合。MIMARKS使用MIGS/ MIMS标准的列表清单,但是扩展了一些其他的补充信息,例如PCR引物,扩增条件,扩增子序列和名称。 MIxS 环境包The MIxS environmental packages 这里定义了十四个典型环境包,提供了丰富的环境和流行病学背景数据,并尽可能完整描述采样环境。环境包可与任何GSC清单结合使用(图1和补充结果2),这里环境包是作为GSC清单的典型案例代表。人类微生物组计划中的研究人员贡献了与宿主相关的和所有人类环境包信息。Terragenome联合会贡献了沉积物和土壤环境包信息。最后,IComm,Microbial Inventory Research Across Diverse Aquatic Long Term Ecological Research Sites 和马克斯·普朗克海洋微生物研究所提供了水体环境包内容。MIMARKS工作人员开发了其他典型的程序包(空气,生物膜,自然或人工环境,与植物相关,和污泥等)。其他尚未定义的自然或人工环境软件包包含一组通用参数,这些参数在典型环境包中存在。只要需要,还可以使用多个程序包来描述该特有环境信息。 符合MIMARKS的数据示例展示Examples of MIMARKS-compliant data sets 我们在补充结果写入了一些符合MIMARKS的研究案例。这些案例包括从北大西洋获得的样品进行的16S rRNA基因调查,在北海永久缺氧盆地中厌氧生物的18S焦磷酸测序研究,内盖夫沙漠土壤的pmoA基因调查。,对墨西哥湾沉积物的dsrAB基因调查和西英吉利海峡的细菌多样性的扩增子序列研究(SRA登录号SRP001108)。 主要数据库和信息资源的使用Adoption by major database and informatics resources 对采用MIMARKS和MIxS标准的文章在迅速增长。本文的作者包括有:代表的基因组测序中心,主要资源的维护者,大型和小型测序项目的主要研究人员以及提供与我们标准相符的数测序据的独立研究人员,这些研究人员的采用,体现了我们的标准具有广泛支持。INSDC最近认可了GSC的MIxS标准,并在INSDC核苷酸序列记录中加入了该标准。这极大地促进了对提交的序列背景数据的完善和矫正,并将清单列表作为标准来对符合先前版本的数据集进行支持。 GenBank使用sequin和tbl2asn提交工具以表格格式接收MIxS原始数据,验证MIxS是否符合标准。EBI-ENA Webin数据提交系统提供了准备好的Web表单,用于提交符合MIxS的数据;它提供了所有适当的项目以及说明,解释和示例,并在随后对输入数据进行验证。这里我们介绍一个用于上传背景数据的工具:etaBar,基于网页的电子表格工具旨在帮助用户按照MIxS标准填写和上传数据。创建在线工具CDinFusion(http://www./CDinFusion )的目的是促进上下文数据与序列数据的组合,以及生成可提交的文件。 下一代序列读长存档(SRA)收集并显示样本和实验对象中符合MIxS的元数据。有一些工具目前已经可用或正在开发中,以帮助用户提交SRA。myRDP SRA PrepKit允许用户准备和编辑他们提交的高通量测序所产生的序列原始文件。数据表单中的一组建议属性项目可帮助研究人员提供符合MIMARKS的元数据。微生物生态定量(QIIME)Web应用程序(http://www./qiime)允许用户生成和验证符合MIMARKS的模板。这些模板可以在用户选择的电子表格编辑器(例如Microsoft Excel)中查看和修改。QIIME Web平台还提供了一个地理位置查询工具,以帮助用户完成MIMARKS模板填写。“调查/研究/分析”(ISA)是一个综合性软件,可协助使用一种或多种技术(包括高通量测序)的技术对研究中的实验元数据进行策划,报告和本地管理。已经开发了特定的ISA配置(http:///tools.html )来支持MIxS标准。另一个工具ISAconverter:可以得到SRA.xml文档,便于提交到SRA存储库。MIxS清单也已在BioSharing标准目录(http:/// )中进行了注册,旨在逐步将最小的信息规范链接到相应和兼容工具。在(http:///gc_wiki/index.php/MIxS )wiki帮助页面下可以找到有关提交过程的更多详细指南。 MIxS标准的维护Maintenance of the MIxS standard 为了让MIxS标准进一步开展,扩展和增强,我们建立了一个公共问题追踪系统来跟踪更改并完成相关功能需求(http://mixs./ )。新版本将每年发布。从技术上讲,包括MIMARKS和环境包在内的MIxS标准是由不莱梅马克斯普朗克海洋微生物研究所(the Max Planck Institute for Marine Microbiology Bremen)的关系数据库系统(relational database system)中维护的。这提供了用于更新清单插件和版本控制的安全稳定机制。将来,我们计划开发相关脚本对该数据库进行访问,以允许自动检索INSDC数据库和GSC社区资源的每个清单的最新版本。此外,基因组背景数据标记语言是参考GSC清单来实现的,现在MIxS标准已经完善了,因此可作为基于Web服务的基础架构的交互操作数据格式。 结论和呼吁采取行动Conclusions and call for action GSC作为一个国际机构,其任务是通过MIxS标准建立起来对基因组和宏基因组的数据集合丰富的描述信息。本报告将GSC指南的范围扩展到扩增子基因序列和环境包,并建立了一个单一的门户网站,实验人员可在此访问并学习如何使用GSC指南。GSC是一项开放的倡议,欢迎广大研究人员的参与,以帮助完善MIxS标准并促进其发展。MIxS标准,包括MIMARKS,已经发展成熟,并可以公开用于序列的发表。作者和期刊的采用统一标准,将大大增强测序数据挖掘和整合工作并进行知识和应用驱动的研究。尤其是以生命之树作为基准,增强整合和比较不同环境测序样本的能力,从而有助于理解地球,人类相关的微生物时空动态分布。 背景知识
美国、欧洲和日本于2005年建立了国际核酸序列共享联盟(INSDC),包括NCBI 、EBI 和DDBJ 三大数据库系统,形成领域内数据存储和共享使用的标准,接收并存储来自全世界科学家提交的组学数据。 ReferencePelin Yilmaz, Renzo Kottmann, Dawn Field, Rob Knight, James R. Cole, Linda Amaral-Zettler, Jack A. Gilbert, Ilene Karsch-Mizrachi, Anjanette Johnston, Guy Cochrane, Robert Vaughan, Christopher Hunter, Joonhong Park, Norman Morrison, Philippe Rocca-Serra, Peter Sterk, Manimozhiyan Arumugam, Mark Bailey, Laura Baumgartner, Bruce W. Birren, Martin J. Blaser, Vivien Bonazzi, Tim Booth, Peer Bork, Frederic D. Bushman, Pier Luigi Buttigieg, Patrick S. G. Chain, Emily Charlson, Elizabeth K. Costello, Heather Huot-Creasy, Peter Dawyndt, Todd DeSantis, Noah Fierer, Jed A. Fuhrman, Rachel E. Gallery, Dirk Gevers, Richard A. Gibbs, Inigo San Gil, Antonio Gonzalez, Jeffrey I. Gordon, Robert Guralnick, Wolfgang Hankeln, Sarah Highlander, Philip Hugenholtz, Janet Jansson, Andrew L. Kau, Scott T. Kelley, Jerry Kennedy, Dan Knights, Omry Koren, Justin Kuczynski, Nikos Kyrpides, Robert Larsen, Christian L. Lauber, Teresa Legg, Ruth E. Ley, Catherine A. Lozupone, Wolfgang Ludwig, Donna Lyons, Eamonn Maguire, Barbara A. Methé, Folker Meyer, Brian Muegge, Sara Nakielny, Karen E. Nelson, Diana Nemergut, Josh D. Neufeld, Lindsay K. Newbold, Anna E. Oliver, Norman R. Pace, Giriprakash Palanisamy, Jörg Peplies, Joseph Petrosino, Lita Proctor, Elmar Pruesse, Christian Quast, Jeroen Raes, Sujeevan Ratnasingham, Jacques Ravel, David A. Relman, Susanna Assunta-Sansone, Patrick D. Schloss, Lynn Schriml, Rohini Sinha, Michelle I. Smith, Erica Sodergren, Aymé Spor, Jesse Stombaugh, James M. Tiedje, Doyle V. Ward, George M. Weinstock, Doug Wendel, Owen White, Andrew Whiteley, Andreas Wilke, Jennifer R. Wortman, Tanya Yatsunenko & Frank Oliver Glöckner. Minimum information about a marker gene sequence (MIMARKS) and minimum information about any (x) sequence (MIxS) specifications. Nature Biotechnology 29, 415, doi:10.1038/nbt.1823 |
|