【原】NBT：扩增子及其他测序的最小信息标准和测序规范(MIMARKS)

宏基因组 2020-10-09

展开全文

扩增子测序的最小信息标准和测序规范

Minimum information about a marker gene sequence (MIMARKS) and minimum information about any (x) sequence (MIxS) specifications

译者：文涛南京农业大学

责编：刘永鑫中科院遗传发育所

Nature Biotechnology [IF:33]

2011-05-06 Articles

doi: https:///10.1038/nbt.1823

全文可开放获取 https://www./articles/nbt.1823

第一作者：Pelin Yilmaz¹

通讯作者：：Frank Oliver Glöckner^1,2* (fog@mpi-bremen.de)

其它作者：

主要作者单位：

¹ 德国马普海洋微生物研究所(Microbial Genomics and Bioinformatics Group, Max Planck Institute for Marine Microbiology, Bremen, Germany)

² 德国不来梅雅各布斯大学(Jacobs University Bremen gGmbH, Bremen, Germany)

³ 英国牛津Wallington CEH自然环境研究委员会环境生物信息学中心(Natural Environment Research Council Environmental Bioinformatics Centre, Wallington CEH, Oxford, UK)

⁴ 美国科罗拉多大学博尔德分校，化学与生物化学系(Department of Chemistry and Biochemistry, University of Colorado, Boulder, Colorado, USA)

摘要

这里我们介绍由基因组标准协会（Genomic Standards Consortium：GSC）开发的用于研究和发表标记基因序列的标准-标记基因测序的最少信息标准 (the minimum information about a marker gene sequence，MIMARKS)。我们还介绍了一套“environmental packages（环境包）”用于描述生物样本来源- ：环境包已经用于已知物种基因组测序样本相关来源记录和标记基因测序（MIMARKS）和其他基组因标准协会指定的标准环境参数记录。最后，为了建立描述测序数据的统一标准，并为科学界提供访问和了解GSC所有信息列表的接口，我们提供了有关任何（x）测序（MIxS）的最少信息标准。采用MIxS标准将增强我们对不断变化的生物圈中自然遗传多样性的能力的认识。

正文

如果没有具体的指导，数据库中的大多数基因组，宏基因组和扩增子基因序列将都被是简单的记录无法以指导数据整合，比较研究和发现。即使使用复杂的关键字搜索，当前也无法可靠地检索源自地球上某些环境或特定位置的原始序列，例如，来自世界某个地区的“土壤”或“淡水湖泊”的所有序列数据。因为国际核苷酸序列数据库合作组织（INSDC; 日本DNA数据库（DDBJ），欧洲核苷酸数据库（EBI-ENA）和GenBank（http://www./）的公共数据库序列的质量取决于作者提交信息的丰富程度，我们认为改变当前现状的唯一方法是建立信息报告标准，要求提交序列需要提供与此相关的信息。这种标准的采用将提高可以从INSDC组织的任何其他数据存储库的测序数据的质量，可访问性和实用性。

GSC先前已经提出了描述基因组序列的标准-“有关基因组序列的最小信息”（MIGS）和宏基因组序列-“有关宏元基因组序列的最小信息”（MIMS）。在这里，我们介绍了这些标准的扩展，用于捕获有关标记基因的信息。此外，我们引入了“environmental packages 环境软件包”用于标准化采样和对特定环境的描述，这适用于所有GSC定义的标准清单和其他测序数据提交标准清单。

相关概念
environmental packages：用于对测序数据来源的信息描述，例如标准化采样和对特定环境的描述

GSC checklists：GSC组织定义了数据所需要的附加信息清单，这些信息包括之前MIGS/ MIMS定义的采样地点和采样信息，但这里还增加了采样地点背景信息，这些信息共同组合起来称为一个列表。
checklists：清单，这里指与测序数据相关的附加信息。用于明确测序项目和数据再利用。

我们将“环境（environmental）”定义为样本或者测序物种采集地点或任何位置，例如土壤，空气，水，与人相关，与植物或实验室相关的位置。原始的MIGS/ MIMS清单包括样本采集地点和采样相关信息。但是，如果我们想对样本的背景环境等作更深入的了解就没办法了，而我们这里介绍的“环境软件包”可以解决此问题，并可用于我们定义的MIGS，MIMS和MIMARKS三大标准清单。

我们提出了一个总体框架，即MIxS标准（http:///gc_wiki/index.php/MIxS ）。MIxS包括来自先前MIGS和MIMS标准以及MIMARKS，并且还允许使用环境软件包注释样品数据。图1显示了MIxS以及MIxS环境软件包的示意图。

图1：为MIxS 标准的三大子标准及其相关的环境包的详细信息。

MIGS：基因组测序；
EU：真核生物；BA：细菌/古细菌；PL：质粒；VI：病毒；ORG，细胞器。
MIMS：宏基因组测序；
MIMARKS：扩增子测序；
NEW checklists：其他测序，例如：泛基因组
shared descriptor：共享的信息描述；样本收集时间；环境参数信息合集；环境（生物群落）；环境（特征）；环境（组成）；地理位置（国家，海洋，地区）；地理坐标（坐标和海拔）；调查类型；项目名称；测序方法；
shecklist-specific descriptors：基因组特有的信息描述：组装，估计基因组大小，组装策略，生物分离和生长条件，重复数，是否多倍体；繁殖信息，生物材料案例。扩增子特有的信息描述：目标基因。其他组学和宏基因组没有特殊的信息描述。
典型的环境包：空气，宿主相关，人类皮肤，肠道，口腔等，生物膜，反应器，植物相关，土壤，污水等。

扩增子最小信息标准和环境包的发展

Development of MIMARKS and the environmental packages

在过去的三十年中，细菌，古菌和真核生物的16S rRNA，18S rRNA和（ITS）为生命树的结构拓扑和不同环境微生物群落结构组成提供了深刻的见解。事实证明，许多其他系统发育标记基因也很有用，包括RNA聚合酶亚基（rpoB），DNA解旋酶（gyrB），DNA重组和修复蛋白（recA）和热休克蛋白（HSP70）等；不仅仅是系统发育信息，标记基因还可以揭示关键的代谢功能。例如：氮循环（amoA，nifH，ntcA），硫酸盐还原（dsrAB）或磷代谢（phnA，phnI，phnJ）。在本文中，我们将所有用于描述自然遗传多样性的系统发育和功能基因（或基因片段）定义为“标记基因”。对于之前建立MIGS/MIMS列表，MIMARKS加入了两种参数列表。MIMARKS调查（用于未培养的多样性标记基因调查）和MIMARKS标本（用于从可通过标本识别的任何材料获得的标记基因序列）。

MIMARKS扩展采用由Consortium for the Barcode of Life（CBOL）开发的标准。因此，这两项清单可以普遍应用于任何标记基因，从小亚基rRNA到细胞色素氧化酶I（COI），到所有物种分类单元，以及从个体到复杂群落的研究。
MIMARKS和环境包都是通过整理来自多个来源的信息并在现有MIGS/ MIMS清单的框架中对其进行评估而开发的。

表1 MIMARKS清单的核心项目，以及类型，描述和需求状态

项目	描述	调查	标本
调查 Investigation
提交INSDC	根据研究（大规模研究，例如，使用下一代测序技术完成的研究，或小规模研究），必须将序列提交给SRA（NCBI），DRA（DDBJ）。通过Webin / Sequin系统上传到GenBank，ENA或DDBJ	M	M
调查类型（investigation type）	核酸序列报告是由基因组标准协会（GSC）标准化的所有符合MIMARKS的报告的核心内容。	M	M
项目名称（Project name）	这部分填写的是MIMARKS调查或者MIMARKS 标本的测序项目名称	M	M
环境（Environment)
地理位置信息（地理坐标经度和纬度)	由纬度和经度（使用GPS全球定位系统测定得到的十进制坐标）定义的样本地理位置坐标	M	M
地理位置信息（深度）	请参考环境包对深度的定义	E	E
地理位置信息（海拔）	请参考环境包对海拔的定义	E	E
地理位置信息（国家和地区，海域）	由国家或海洋名称定义样品的地理来源。国家，海洋或地区名称应从INSDC列表（http:///country.html）或GAZ（Gazetteer，v1.446）(http://bioportal./visualize）中选择	M	M
样本收集时间（Collection date）	采样时间（某个时间或者一段时间）。如果不明确的时间可以参照一下写法，这些都是有效输入（符合ISO6801）：2008-01-23T19：23：10 + 00：00; 2008-01-23T19：23：10; 2008-01-23; 2008-01; 2008年；无效输入：2008-01和2008，	M	M
环境信息（Environment biome ）（生物）	环境生物群落主要包括植物，动物和其他生物。生物群落的定义是参考了如下信息：植物结构，叶片类型，植物间距和其他因素（如气候）的因素。例如：沙漠，针叶林，落叶林或珊瑚礁。可以在http://bioportal./visualize/44405/?conceptid=ENVO%3A00000428找到环境生物群落的信息	M	M
环境特征（Environment feature）	环境特征包括地理环境特征。例如：港口，悬崖或湖泊。有关环境特征已经定义好的的列表在如下位置访问（http://bioportal./visualize/44405/?conceptid=ENVO%3A00002297 ）	M	M
环境材料（Environment material）	主要是采样的物质类别信息，环境材料术语通常是代表物质的名词。例如：空气，土壤或水。可以在（http://bioportal./visualize/44405/?conceptid=ENVO%3A00010483 ）中找到环境材料的术语	M	M
MIGS / MIMS / MIMARKS扩展（MIGS/MIMS/MIMARKS extension）
环境软件包（Environmental package）[空气，与宿主相关，与人相关，与人皮肤，与人口腔，与人肠道，与人阴道，微生物垫/生物膜，各种自然或人工环境，与植物相关，沉积物，土壤，废水/污泥，水]	MIGS / MIMS / MIMARKS扩展，用于报告从一种或多种环境获得样品的调查结果。此处列出的所有环境软件包均在单独的表格中进一步定义。可以通过给出环境软件包的名称，从对应的表中选择字段信息并进行填写报告。	M	M
核酸序列来源（Nucleic acid sequence source）
分离和生长环境(Isolation and growth conditions)	以PubMed ID（PMID，DOI或URL形式的出版物填写有机物或者材料的分离和生长条件信息。	-	M
测序(Sequencing)
扩增子测序目标基因(Target gene or locus)	目标基因名称或者相关研究参考	M	M
测序方法(Sequencing method)	一代测序, 焦磷酸测序, solid测序	M	M

MIMARKS规定的项目及其必填（M），即MIMARKS调查和MIMARKS样本清单的状态。此外，“ –”表示该项目不适用于该条项目的清单。E表示表格内容具有特定于环境。例如，“深度”对于水，沉积物或土壤是必不可少的，而对于与人类相关的环境则是可选的。MIMARKS-survey适用于直接从环境中获得，无需培养或生物鉴定的标记基因序列的环境数据；另一方面，MIMARKS样本适用于来自培养或标记样本的标记基因序列的环境数据。MIMARKS调查和样本检查表均可用于任何类型的扩增子基因序列数据，包括16S，18S，23S，28S rRNA到COI等。因此，检查在生命分类的三个域中都是适用的。在项目名称之后，在括号中和/或括号中的值类型作为上标对项目的内容进行了简短描述。只要适用，就可以从（CV）或（OBO）（http://www./ ）中的候选标识中选择相应的词汇进行描述。该表仅展示MIMARKS清单的核心内容，即每个清单仅包含必填项。补充结果2包含MIMARKS清单的全部内容，MIGS/MIMS/MIMARKS环境包的扩展中清单表格和GenBank结构化注释名称应该在提交MIMARKS 数据到Genback的时候使用。如果提交给EBI-ENA时，可以使用全名。

群落主导的调查结果

Results of community-led surveys

我们已经进行了四次有关扩增子基因的相关调查，来确定研究人员对扩增子测序相关核心指标描述的偏好性。能源部联合基因组研究所和SILVA的调查侧重于标记基因的一般背景特征，而核糖体数据库项目（RDP）侧重于rRNA基因的来源，Terragenome联盟侧重于土壤宏基因组项目的背景数据（补充结果1）。以上调查信息与2005年召开的国际海洋微生物普查（ICoMM）工作组建议的大量信息结合起来。这些信息丰富了MIMARKS标准清单和并构成了环境包的主体部分。

对已发表发表的数据的总结

Survey of published parameters

我们从SILVA和ICoMM数据库MICROBIS（微生物海洋生物地理信息系统，http：//icomm.mbl.edu/microbis/ ）中检索，并总结了这些已发表的rRNA基因研究项目，以进一步补充各个环境包中需要纳入的背景描述数据。我们从SILVA种查找了39个项目和40多个ICoMM测序项目的补充数据，并构成了环境包的核心组成（补充结果1）。

随后我们分析了SILVA数据库中包含的rRNA基因序列与INSDC统计的数据相关信息进行比对（补充结果1）。发现，大于10％ 16S rRNA基因序列都共有如下信息：纬度和经度，采集日期或PCR引物之类的基本信息。

MIMARKS信息列表

The MIMARKS checklist

MIMARKS清单为用户提供了一个“电子笔记本”，其中包含测序相关的一切附加信息的集合。MIMARKS使用MIGS/ MIMS标准的列表清单，但是扩展了一些其他的补充信息，例如PCR引物，扩增条件，扩增子序列和名称。
为了使用更加清晰明了，在MIMARKS清单中的所有项目均带有候选值及其说明以及该项目的明确定义。每当需要来自特定环境的术语的固定写法的时候，就可以在由项目定义中的URL链接的轻松找到这些候选术语，并选择填写。尽管此版本的MIMARKS清单不包含单位，但我们建议用户选择的所有单位尽量按照国际单位制（SI）来填写。此外，我们强烈敦促大家就给定参数的最佳单位建议提供反馈。因为数据集的单位标准化对于将来进行比较研究至关重要。GSC网站（http:///gc_wiki/index.php/MIMARKS ）提供了Excel版本的MIMARKS清单，可下载使用。

MIxS 环境包

The MIxS environmental packages

这里定义了十四个典型环境包，提供了丰富的环境和流行病学背景数据，并尽可能完整描述采样环境。环境包可与任何GSC清单结合使用（图1和补充结果2），这里环境包是作为GSC清单的典型案例代表。人类微生物组计划中的研究人员贡献了与宿主相关的和所有人类环境包信息。Terragenome联合会贡献了沉积物和土壤环境包信息。最后，IComm，Microbial Inventory Research Across Diverse Aquatic Long Term Ecological Research Sites 和马克斯·普朗克海洋微生物研究所提供了水体环境包内容。MIMARKS工作人员开发了其他典型的程序包（空气，生物膜，自然或人工环境，与植物相关，和污泥等）。其他尚未定义的自然或人工环境软件包包含一组通用参数，这些参数在典型环境包中存在。只要需要，还可以使用多个程序包来描述该特有环境信息。

符合MIMARKS的数据示例展示

Examples of MIMARKS-compliant data sets

我们在补充结果写入了一些符合MIMARKS的研究案例。这些案例包括从北大西洋获得的样品进行的16S rRNA基因调查，在北海永久缺氧盆地中厌氧生物的18S焦磷酸测序研究，内盖夫沙漠土壤的pmoA基因调查。，对墨西哥湾沉积物的dsrAB基因调查和西英吉利海峡的细菌多样性的扩增子序列研究（SRA登录号SRP001108）。

主要数据库和信息资源的使用

Adoption by major database and informatics resources

对采用MIMARKS和MIxS标准的文章在迅速增长。本文的作者包括有：代表的基因组测序中心，主要资源的维护者，大型和小型测序项目的主要研究人员以及提供与我们标准相符的数测序据的独立研究人员，这些研究人员的采用，体现了我们的标准具有广泛支持。INSDC最近认可了GSC的MIxS标准，并在INSDC核苷酸序列记录中加入了该标准。这极大地促进了对提交的序列背景数据的完善和矫正，并将清单列表作为标准来对符合先前版本的数据集进行支持。

GenBank使用sequin和tbl2asn提交工具以表格格式接收MIxS原始数据，验证MIxS是否符合标准。EBI-ENA Webin数据提交系统提供了准备好的Web表单，用于提交符合MIxS的数据；它提供了所有适当的项目以及说明，解释和示例，并在随后对输入数据进行验证。这里我们介绍一个用于上传背景数据的工具：etaBar，基于网页的电子表格工具旨在帮助用户按照MIxS标准填写和上传数据。创建在线工具CDinFusion（http://www./CDinFusion ）的目的是促进上下文数据与序列数据的组合，以及生成可提交的文件。

下一代序列读长存档（SRA）收集并显示样本和实验对象中符合MIxS的元数据。有一些工具目前已经可用或正在开发中，以帮助用户提交SRA。myRDP SRA PrepKit允许用户准备和编辑他们提交的高通量测序所产生的序列原始文件。数据表单中的一组建议属性项目可帮助研究人员提供符合MIMARKS的元数据。微生物生态定量（QIIME）Web应用程序（http://www./qiime）允许用户生成和验证符合MIMARKS的模板。这些模板可以在用户选择的电子表格编辑器（例如Microsoft Excel）中查看和修改。QIIME Web平台还提供了一个地理位置查询工具，以帮助用户完成MIMARKS模板填写。“调查/研究/分析”（ISA）是一个综合性软件，可协助使用一种或多种技术（包括高通量测序）的技术对研究中的实验元数据进行策划，报告和本地管理。已经开发了特定的ISA配置（http:///tools.html ）来支持MIxS标准。另一个工具ISAconverter：可以得到SRA.xml文档，便于提交到SRA存储库。MIxS清单也已在BioSharing标准目录（http:/// ）中进行了注册，旨在逐步将最小的信息规范链接到相应和兼容工具。在（http:///gc_wiki/index.php/MIxS ）wiki帮助页面下可以找到有关提交过程的更多详细指南。

MIxS标准的维护

Maintenance of the MIxS standard

为了让MIxS标准进一步开展，扩展和增强，我们建立了一个公共问题追踪系统来跟踪更改并完成相关功能需求（http://mixs./ ）。新版本将每年发布。从技术上讲，包括MIMARKS和环境包在内的MIxS标准是由不莱梅马克斯普朗克海洋微生物研究所（the Max Planck Institute for Marine Microbiology Bremen）的关系数据库系统（relational database system）中维护的。这提供了用于更新清单插件和版本控制的安全稳定机制。将来，我们计划开发相关脚本对该数据库进行访问，以允许自动检索INSDC数据库和GSC社区资源的每个清单的最新版本。此外，基因组背景数据标记语言是参考GSC清单来实现的，现在MIxS标准已经完善了，因此可作为基于Web服务的基础架构的交互操作数据格式。

结论和呼吁采取行动

Conclusions and call for action

GSC作为一个国际机构，其任务是通过MIxS标准建立起来对基因组和宏基因组的数据集合丰富的描述信息。本报告将GSC指南的范围扩展到扩增子基因序列和环境包，并建立了一个单一的门户网站，实验人员可在此访问并学习如何使用GSC指南。GSC是一项开放的倡议，欢迎广大研究人员的参与，以帮助完善MIxS标准并促进其发展。MIxS标准，包括MIMARKS，已经发展成熟，并可以公开用于序列的发表。作者和期刊的采用统一标准，将大大增强测序数据挖掘和整合工作并进行知识和应用驱动的研究。尤其是以生命之树作为基准，增强整合和比较不同环境测序样本的能力，从而有助于理解地球，人类相关的微生物时空动态分布。

背景知识

International Nucleotide Sequence Database Collaboration, INSDC ：国际核酸序列共享联盟

美国、欧洲和日本于2005年建立了国际核酸序列共享联盟（INSDC），包括NCBI 、EBI 和DDBJ 三大数据库系统，形成领域内数据存储和共享使用的标准，接收并存储来自全世界科学家提交的组学数据。

Reference

Pelin Yilmaz, Renzo Kottmann, Dawn Field, Rob Knight, James R. Cole, Linda Amaral-Zettler, Jack A. Gilbert, Ilene Karsch-Mizrachi, Anjanette Johnston, Guy Cochrane, Robert Vaughan, Christopher Hunter, Joonhong Park, Norman Morrison, Philippe Rocca-Serra, Peter Sterk, Manimozhiyan Arumugam, Mark Bailey, Laura Baumgartner, Bruce W. Birren, Martin J. Blaser, Vivien Bonazzi, Tim Booth, Peer Bork, Frederic D. Bushman, Pier Luigi Buttigieg, Patrick S. G. Chain, Emily Charlson, Elizabeth K. Costello, Heather Huot-Creasy, Peter Dawyndt, Todd DeSantis, Noah Fierer, Jed A. Fuhrman, Rachel E. Gallery, Dirk Gevers, Richard A. Gibbs, Inigo San Gil, Antonio Gonzalez, Jeffrey I. Gordon, Robert Guralnick, Wolfgang Hankeln, Sarah Highlander, Philip Hugenholtz, Janet Jansson, Andrew L. Kau, Scott T. Kelley, Jerry Kennedy, Dan Knights, Omry Koren, Justin Kuczynski, Nikos Kyrpides, Robert Larsen, Christian L. Lauber, Teresa Legg, Ruth E. Ley, Catherine A. Lozupone, Wolfgang Ludwig, Donna Lyons, Eamonn Maguire, Barbara A. Methé, Folker Meyer, Brian Muegge, Sara Nakielny, Karen E. Nelson, Diana Nemergut, Josh D. Neufeld, Lindsay K. Newbold, Anna E. Oliver, Norman R. Pace, Giriprakash Palanisamy, Jörg Peplies, Joseph Petrosino, Lita Proctor, Elmar Pruesse, Christian Quast, Jeroen Raes, Sujeevan Ratnasingham, Jacques Ravel, David A. Relman, Susanna Assunta-Sansone, Patrick D. Schloss, Lynn Schriml, Rohini Sinha, Michelle I. Smith, Erica Sodergren, Aymé Spor, Jesse Stombaugh, James M. Tiedje, Doyle V. Ward, George M. Weinstock, Doug Wendel, Owen White, Andrew Whiteley, Andreas Wilke, Jennifer R. Wortman, Tanya Yatsunenko & Frank Oliver Glöckner. Minimum information about a marker gene sequence (MIMARKS) and minimum information about any (x) sequence (MIxS) specifications. Nature Biotechnology 29, 415, doi:10.1038/nbt.1823
https://www./articles/nbt.1823#supplementary-information (2011).