【原】我觉得AI开发药物炒过头了，无论哈佛还是斯坦福，我用论文说话

科技行者 2020-10-12

展开全文

科技行者报道

来源：medium.com

编译：科技行者

大量投资正涌入人工智能药物研发领域。Big Pharma投入巨资，Sanofi和GSK药物公司也分别与初创人工智能公司Exscientia签署了价值3亿和4200万美元的药物研发协议。硅谷风投公司Andreessen Horowitz成立了价值4.5亿美元的生物投资基金，致力于将人工智能应用于药物研发。
投资热潮空前高涨，众多制药或生物科技公司及投资者举棋不定：2018年加入投资大军，还是伺机观察。
笔者认为投资需谨慎。坦白讲，人工智能研究团队经常夸大其研发成果，炒作行为十分普遍。

为证实这一观点，我考察了big Pharma（药物设备公司），AstraZeneca公司， Harvard和Stanford大学以及初创智能公司Insilico Medicine近期开展的各项研究，这些实验室极具声望，研究也涉及其他领域。

其他公司的情况也不容乐观。例如，IBM Watson过度炒作其专利人工智能平台。这一诡计帮助其逃避了公众谴责，在现实面前仍然不堪一击。

然而，并不意味应全盘否定人工智能。药物研发属于创新领域，需紧跟时代潮流。“第一个吃螃蟹”的公司会获得巨大的竞争优势，可取的折中方案是快速且谨慎地采取行动，需同时聘请非专业人员。

制药公司可点击此处链接http://www./，咨询Startcrowd获取非专业服务。Startcrowd云平台是家聚集了众多人工智能专家和爱好者，拟提供的独立的非专业服务。各大公司可从网上教育中的佼佼者中挖掘人才，Startcrowd也因此避免了制药业的利益冲突。

此种非专业服务有助于人们对机器辅助方法重拾信心。制药业行家都知道，20世纪80年代制药业曾出现“史诗级”失败。大型制药公司未能兑现工业4.0制药智能化的承诺。

图为1981年《财富》杂志封面

笔者认为2018年这种情况将大有改观。一方面，人工智能发展突飞猛进；另一方面，网上教育和社交媒体等新兴力量崛起，工业愈发受到制衡，研发组织有望进一步发展。同行审查机制也愈发开放，打击了虚假炒作。而Startcrowd的目的就是加快这一进程。

接下来谈谈技术问题，以近期的人工智能炒作为例。

本篇论文（https:///abs/1701.01329）中，AstraZeneca研究团队（联手其他团队）试图借助循环神经网络和增强学习等技术制造新型分子。这一论题至关重要，因为人工智能唯有实现制造工艺的多样性，才具备创新价值。

这篇文章之所以引起我的注意，是因为其大篇幅评估这一模型，似乎颇有深度。文章介绍了基于谷本相似度（Tanimoto-similarity）与编辑距离（Levenshtein distance）的各种度量指标，借助柱状图、小提琴图和t-SNE（流体学习方法），进行了大量可视化处理。

然而，文章中的所有测量都围绕独立的人工智能分子与天然分子展开，却忽略了人工智能分子间的距离，造成了多样性的假象：人工智能分子与天然分子的远距离会让人们误以为AI具有创造性，并认为AI探索了化学界的新领域，得到了如图所示的成果：

真正的多样性：人工智能分子（蓝）与天然分子（红）

然而，如果人工智能分子间距离很小，则表示该模型生成的大量分子全部位于同一位置，毫无多样性可言。实际情况如图所示：

多样性假象：人工智能分子（蓝）与天然分子（红）确实不同，但各人工智能分子几近相同

简言之，AstraZeneca发表的这篇文章刻意回避了要害问题。且在近期的两篇论文（https:///abs/1704.07555，https:///abs/1711.07839）也未解决该问题。

图：棘手的要害问题

如想了解更多技术讨论，请见本论文6-7页（https://drive.google.com/file/d/1K7YxMUMEKLoCsFIE9GtCZbanhq6FXb6G/view）

哈佛大学某研究小组曾考察上述人工智能生成的分子样品，也发现其缺乏多样性。该小组试图纠正错误，并提出ORGAN模型，见这两篇论文：https:///abs/1705.10843，https:///articles/ORGANIC_1_pdf/5309668/3。

该小组旨在建立名为“discriminator（鉴别器）”的另一神经网络鉴别生成物，否定反常的分子产物，从而生成多种化学产物，实现化学现实主义。该设计灵感来源于人工智能领域的一个热议概念，即生成式对抗网络(GAN)。

哈佛大学的设计很有趣，但评估方案却很糟糕。他们宣称ORGAN模型要比AstraZeneca的模型好得多，但评估依据仅凭自身观察，没有任何量化支持（见这篇论文第三页https:///abs/1705.10843）。尽管开展了定量实验，也无法证明其结论。

这也算是意料之中，因为哈佛大学研究小组与AstraZeneca一样，只比较了人工智能分子与天然分子间的距离，而避开比较人工智能分子彼此间的距离。

此外，哈佛大学研究小组的模型训练方法也存在漏洞。查看其训练记录（他们公开训练记录的做法值得赞扬）后便一目了然。该小组的鉴别器否定产物的标准十分严苛，过分追求完美，也基本上抵消了GAN的实用价值。

理由可能为，该研究小组的“完美”鉴别器来自SeqGAN论文，该篇论文阐述了建立ORGAN模型。然而，这只是推测，因为SeqGAN团队与ORGAN团队不同，未将训练日志公布于众，也就无人重复他们的实验。

更多技术讨论可见本篇文章5-6页。笔者将该文章推送给了ORGAN团队负责人Alan Aspuru-Guzik。他回答说：

我仍然在等待正式回应。

斯坦福大学的一支大型研究团队旨在将人工智能和深入学习应用于化学领域。团队负责人Vijay Pande也是Andreessen Horowitz的创业投资人，共同管理该公司4.5亿美元规模的生物基金。他们的王牌项目是分子网络（MoleculeNet），这是一个“测试分子性质机器学习方法而特别设计的标准检查程序”，程序设计非常严格，含诸多化合物、图表以及深度学习模型。特别是，该项目主要用于检查graph-CNN和其他由斯坦福研究团队开发的用于特定化学领域的神经网络。

然而，Pande团队也忽略了一个明显的要害问题，即未将其数据插入字符级卷积神经网络（character-level Convolutional Neural Network,简称char-CNN）。2015年以来，Char-CNN经常用于AI领域的文本处理，比Char-CNN更简单。插入SMILES字符串,即可使用Char-CNN。

他们为什么要避免如此简单的任务？其论文(https:///abs/1703.00564)第17页中提到：

“Recent work has demonstrated the ability to learn useful representations from SMILES strings using more sophisticated methods, so it may be feasible to use SMILES strings for further learning tasks in the near future.”
“近期工作成果表明，可使用更复杂的方法，从SMILES字符串中学习有用的表示，所以不久的将来，可将SMILES字符串用于更复杂的机器学习任务。

坦白讲，我很怀疑斯坦福大学团队能否实现对其如此复杂的char-CNN。他们甚至在另一篇论文(https:///abs/1706.01643)中也使用了char-CNN。合理但又有失颜面的理由是，他们担心或许char-CNN胜于其研发的模型。这意味着其倾心的graph-CNN模型将会被自己研发的MoleculeNet检查程序驳回，有悖于团队议程。

该团队的议程是什么？MoleculeNet模型与采用该模型的DeepChem库密切相关。DeepChem是由斯坦福大学指导设计的开源库。如果char-CNN比graph-CNN更好，那么就无需使用DeepChem。因为若想建立先进模型，仅需使用简单的TensorFlow或PyTorch。2018年，开源框架就是战略资产。例如，谷歌借助开源Android占领了移动操作系统市场。DeepChem也试图占领AI药物研发市场，这或许就是MoleculeNet模型故意“忽略”char-CNN的原因。

DeepChem的使用体验进一步验证了我的猜想。我曾尝试在项目中使用DeepChem，却发现不能混用DeepChem模型和非DeepChem模型。然而，混用DeepChem鉴别器和非DeepChem生成器十分有利于对抗训练。但我仅能使用DeepChem代码，此等霸王条款完全出乎我的意料。为摆脱桎梏，实现开源DeepChem，我不得不破解其复杂代码（破解版DeepChem的链接在此https://github.com/mostafachatillon/deepchem）。多亏项目并非十分复杂，不然很难做到这一点。所以我认为，DeepChem想要采用封闭的技术策略占领AI的化学应用领域。鉴此，DeepChem与Marc Andreessen投资合作便不足为奇。

图：DeepChem和Andreessen Horowitz拟采用封闭技术使占领AI化学市场。

MoleculeNet团队成员虽未对char-CNN进行基准测试，但却为MoleculeNet和DeepChem设计精致的登陆页面，这表明他们会优先考虑PR，而非科学。这是硅谷典型的战略，创业公司设计模拟产品来吸引流量，然后依靠研究团队建立真实产品。

图：硅谷深知门面比实力更有用

在生成模型领域，Insilico Medicine是众多AI创业公司中的先驱。本论文（http://pubs./doi/abs/10.1021/acs.molpharmaceut.7b00346）中（可使用Sci-Hub破解付费门槛），Alex Zhavoronkov及其团队提出了一种先进的“生成对抗自编码器模型”，即 DruGAN。我一直怀疑这一模型的先进之处。

满足药物研发需求方面，它不够先进。其缺陷与其他生成模型相同，可能会导致失败。

此外，相较于先前使用了更复杂工具的文献而言，它也不先进。Alex Zhavoronkov在其文中第9-10页有所提及，但未引用：