分享

JCIM|MolBook UNIPI:免费创建、管理、分析和分享化学数据的工具

 智药邦 2023-07-24 发布于上海

2023年6月26日,来自意大利比萨大学药学系的研究者在Journal of Chemical Information and Modeling上发表研究论文"MolBook UNIPI─Create, Manage, Analyze, and Share Your Chemical Data for Free"。论文介绍了作者开发的一个免费创建、管理、分析和分享化学数据的神器——MolBook UNIPI。MolBook UNIPI可以免费使用,支持用户创建、管理、分析和分享化学数据,其还可根据性质和结构特征搜索感兴趣的化合物,可以计算数据库中分子的性质,而毒理学特征也可以通过内置的VenomPred平台进行预测。

软件网址:

https://molbook.farm./

1 摘要

本文介绍了MolBook UNIPI,这是一款专为药物化学家设计的免费且用户友好的软件,是一款方便管理化合物虚拟库的强大工具。使用MolBook UNIPI,可以以非常简单直观的方式创建、存储、处理和分享分子数据库。该软件允许用户通过手动创建单个分子或自动从公共数据库和已有化学库导入化合物,快速生成生物活性配体、构建块或商业化合物库。MolBook UNIPI数据库可以丰富各种数据,并可以根据分子结构或性质进行过滤,只需点击几下即可轻松访问所需的分子及其结构和特征。此外,其也可被用于快速可靠地预测化合物的新分子特性和潜在的毒理学效应。值得注意的是,即使是没有经验的用户,也可以很容易地掌握所有这些功能,即使他们没有化学信息学知识或编程技能,这使得MolBook UNIPI成为药物化学家的宝贵工具。MolBook UNIPI可以从网页https://molbook.farm./免费下载。

2 引言

近年来,由于数据的大量数字化,大型数据库的管理变得至关重要。数字化格式数据库的存在使涉及搜索和分析存储数据以获得有用信息的技术得以迅速传播。现有大量为药物化学家和生物学家建立的分子数据库,其中包含具有已知生物靶标活性的合成和天然化合物的数据,使整个科学界能够快速、以某种方式自动共享实验数据。这些数据库大部分是免费提供的,促进了化学信息学的发展。但这些工具大部分是面向计算化学家,或者至少面向在编程和/或化学信息学方面具有一定经验的用户。对于那些不具备编程技能、从未或很少接触化学信息学但仍需要创建和管理化合物数据库的用户来说,提供简单、直观和用户友好的化学数据管理软件至关重要。

在这种情况下,作者开发了MolBook UNIPI,这是一款用户友好且可自由访问的软件,可以管理和分析化学数据,包括预测分子性质的可能性。MolBook UNIPI的设计旨在为用户提供一个直观的工具,通过该工具可以以快速且非常简单的方式执行操作。用户可以创建自己的数据库(本文称为项目),在其中他们可以添加和导入化合物的数据和结构。项目可以保存并轻松共享,因为它们存储为简单的文件夹。项目中包含的数据可以导出为Microsoft Excel等应用程序常用的格式;此外,项目目录还可以在不同的用户之间共享,从而允许对系统进行多次访问。MolBook UNIPI包括几个功能,这些功能有助于基于属性和/或基于结构的搜索,从而能够有效地处理大量数据库并轻松检索必要的信息。该研究团队最近开发的VenomPred平台的实施为用户提供了一个预测储存分子毒理学特征的宝贵工具。MolBook UNIPI的目的是简单直观,同时提供执行复杂搜索和分析任务的可能性。用户可以利用MolBook UNIPI官方网站上提供的各种教程(https://molbook.farm./howto/),其中包含一个报告错误和反馈的表格,这将是软件未来开发的基础,以提高其对科学界的有用性。

3 结果

启发创建MolBook UNIPI的动机有2点:(1) 现有研究界缺乏用于化学数据管理的免费软件,(2) 通过为非专业用户提供简单直观的工具,使数据库管理程序变得用户友好性。作者原文通过三个应用案例展示了MolBook UNIPI的潜在用途:(1) 从头开始创建和探索项目;(2) 属性的查询、分析和预测;(3) 天然化合物的过滤。这里主要介绍第一个案例:从头开始创建和探索项目。

图1 使用不同的方法向项目中添加数据:(A) 手工输入化合物结构;(B) 导入外部文件;(C) 根据CAS值从PubChem数据库检索导入化学结构。

从头开始创建和探索项目

MolBook UNIPI项目可以使用文件菜单中的“New Project”功能栏或工具栏中的相应文件夹图标创建。项目显示在可从主窗口访问的各个选项卡中。该软件支持多个同时打开的项目的管理;但是,执行的任务只影响当前活动选项卡。项目选项卡包含一个表,其目的是显示和选择存储的数据。创建新项目时,表显示为空,用户必须添加数据才能更新它。数据可以通过多种方式添加;在这里,作者考虑了用户可以使用的所有解决方案。如果用户打算手动添加数据,则有必要绘制所需化合物的化学结构并添加感兴趣的化学性质。

可以使用Edit菜单中的“Add Molecule”功能添加化合物,该功能打开包含JSME草图和属性表的窗口(图1A)。JSME sketcher允许用户以用户友好的方式绘制化学结构,它为用户提供几个预设的化学片段。绘制器链接到SMILES字段,以便绘制结构的SMILES符号同时显示在相应的文本框中。相反,SMILES框可以用于直接输入要添加的化合物的SMILES;在这种情况下,JSME绘制器将自动显示化合物的结构。与绘制器相邻的面板允许用户包括与分子条目相关的属性。添加/编辑属性是通过单击“Add/Edit Property”按钮来执行的,该按钮将打开相应的窗口,用户必须在其中指定特性的名称和值。如果属性已经存在(如编辑现有分子条目的情况),则可以通过双击显示的表来更改其值。事实证明,属性表可用于存储与化合物相关的数据,如生物活性(针对生物活性分子)、可用数量信息、来源供应商(针对商业化合物)以及任何相关笔记。
如果要上传的数据已经以数字格式存储,如Microsoft Excel(*.xlsx)、逗号分隔值(*.csv)或结构数据文件(*.sdf),则软件提供将这些数据直接导入项目的选项。数据可以导入到空项目中,也可以导入到已经包含条目的项目中。导入功能可从数据库菜单中的“Import”选项访问。“Import”窗口(图1B)要求选择包含分子ID和SMILES格式结构的字段。对于csv文件,可以从相应的下拉菜单中指定分隔符。MolBook UNIPI不处理化合物ID重复的实例;因此,如果遇到重复,则只考虑第一个实例。尽管如此,在附加的消息窗口中会提示重复的ID。
最后,该软件允许用户直接从CAS编号导入化学结构。此函数使用PubChem数据库首先用SMILES符号匹配CAS标识符,然后通过将其合并到MolBook UNIPI项目中来下载数据。“Import from CAS number”(从CAS号导入)选项位于主窗口的Database(数据库)菜单中。“CAS importer”窗口有一个空白框,用于输入CAS编号(图1C);此外,如果用户将CAS编号列表作为txt文件,则可以使用相应的按钮直接加载。搜索具有CAS标识符的结构需要互联网连接才能查询PubChem数据库。下载的每个化合物都包括IUPAC名称,该名称显示为与分子条目相关的属性。事实证明,当建立用于化学合成的试剂、构建块或已知化合物的数据库时,该功能非常有用。
最后,值得一提的是,可以使用化学笔记本功能将外部文件作为每个分子条目的附件。化学笔记本可通过右键单击表中的分子条目打开的上下文菜单访问。相应的窗口允许用户添加、打开和删除所考虑分子的附件。此类附件可以是但不限于图像、PDF和文本文件。给定化合物的一个或多个附件的存在由回形针在以“#”命名的列中的存在表示。

在MolBookUNIPI中创建项目时,用户可以通过两种不同的模式可视化数据:经典视图和表视图。经典模式显示了一个包含数据的可滚动项目表,只有所选分子条目的结构显示在表的顶部。表视图模式允许化合物的结构直接显示在表的相应行中。具体而言,在经典视图模式下,包含每个分子的SMILES字符串被转换为2D化学结构的图像。如果用户有兴趣通过关注存储分子的单个属性来浏览项目数据,则建议使用经典模式,而对于专注于化合物结构的可视化,则建议采用表视图模式。这两种模式都是动态可互换的,并允许突出显示单独的行。此功能可以通过打开上下文菜单并选择所需的颜色(绿色、黄色或红色)来执行。所选的行将采用所选的颜色,可以随时通过相同的菜单删除。该功能可用于快速识别用户特别感兴趣的分子。

4 结论

作者开发了用户友好的独立软件,用于创建、管理和分析化学数据库。该软件可免费提供给科学界,是一种方便处理化学数据的有用工具。MolBook UNIPI允许快速简单的查询操作,可根据性质和结构特征搜索感兴趣的化合物,可以计算数据库中分子的性质,毒理学特征可以通过内置的VenomPred平台进行预测。

用户可以从项目网页https://molbook.farm./下载该软件,该网页还提供了包括教程在内的全面文档。第一次启动时,软件以15天的演示模式运行;在试用期结束时,将请求激活码继续使用MolBook UNIPI。此激活码是免费提供的,可以使用官方网站上的表格来进行申请。该网站包括一个支持表格,用户可以通过该表格提交有关软件错误的反馈和建议,这些建议将由开发团队进行处理。

5 讨论

MolBook UNIPI允许用户创建、管理和分析化学数据库。它支持几种创建数据库的方法:通过绘制化合物结构手动添加、导入外部文件(例如xlsx、csv和sdf文件)以及从PubChem检索数据。数据库可以直接在MolBook UNIPI中进行管理;此外,它们可以导出为外部软件(如Microsoft Excel)可访问的格式,以便于共享。该程序包括查询数据库以识别具有某些性质或特定化学结构的化合物的功能。利用后一种功能,用户甚至可以在大型数据库上进行搜索,目的是识别与参考分子具有一定程度相似性的化合物或检索具有一定亚结构的分子。预测分子的化学性质和毒理学特征的能力使MolBook UNIPI成为药物化学家和生物学家的宝贵资源。

此外,MolBook UNIPI旨在允许合作者之间共享项目。通过使用文件共享软件工具,如Google Drive或OneDrive,共享项目目录,不同的用户可以在同一项目上工作;然而,为了防止共享问题,在多个用户同时打开项目的情况下,只有第一个用户将保持读/写模式访问,而所有其他用户将收到一个通知,指示哪个用户处于读/写状态,并建议使用只读模式。

6 展望

本软件开发团队专注于通过包含新功能和改进现有功能来保持MolBook UNIPI的更新。因此,科学界的反馈对于更新功能和包括对用户有用的新功能至关重要。在这种情况下,作者目前正在更新VenomPred平台,以进行计算机毒理学预测,从而有可能评估新型毒性终点,并通过优化预测策略提高预测性能。这些新功能将包含在新版MolBook UNIPI中。同样,用于预测化学和生物特性的机器学习模型的开发将集成到软件中,以预测水溶性(aqueous solubility)和生物膜渗透性(biological membrane permeations)。

为了方便合成化学领域的用户,作者将在新版软件中引入一种在商业供应商数据库中搜索化合物的工具。这种工具可能有助于购买试剂和化学品,避免在不同网站上进行多次搜索,并提供可用选项的概述。值得一提的是,开发团队也将开发一种提供分子合成信息的工具,并将其纳入MolBook UNIPI。鉴于收集反应物和合成条件信息的重要性,这一功能对合成化学家来说是有益的。这将包括相似性搜索功能,以从公共ChEMBL数据库中检索结构上与参考查询分子相似的化合物,从而获得文献中已经存在的结构相关分子的概述。同样,软件也将在RCSB数据库中进行相似性搜索,目的是识别与查询分子相似的配体,该查询分子中保存有生物分子的X射线结构。最后,项目导出选项将得到扩展,可以将数据库保存为MS Word表格,而用于可视化数据库分子的可靠、低能量构象的3D查看功能也将在MolBook UNIPI的下一个版本中实现。
参考文献
Galati S, Di Stefano M, Macchia M, et al. MolBook UNIPI─ Create, Manage, Analyze, and Share Your Chemical Data for Free[J]. Journal of Chemical Information and Modeling, 2023.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多