【原】机器学习揭示了莎士比亚戏剧中有多少是别人写的

西当源 2019-11-28

展开全文

文学分析家们很早便注意到莎士比亚《亨利八世》中有另一位作者的笔迹。现在，神经网络技术已经识别出了有问题的特定场景，以及这些场景是谁写的。

威廉·莎士比亚一生中大部分时间都是一家名为“国王的男人”（King’s Men）剧团的剧作家，该剧团在伦敦泰晤士河岸边演出他的戏剧。当莎士比亚在1616年去世时，该剧团需要一个人来接替他的工作，于是请来了当时最多产、最著名的剧作家之一约翰·弗莱彻(John Fletcher)。

此后，弗莱彻的名声便销声匿迹。但是在1850年，一位名叫詹姆斯·斯派丁（James Spedding）的文学分析家注意到弗莱彻的剧本和莎士比亚的《亨利八世》中的段落有惊人的相似之处。斯派丁断定弗莱彻和莎士比亚一定是合作演出的。

证据来自对每个作者的语言特质的研究，以及他们是如何在《亨利八世》中突然出现的。例如，弗莱彻经常用ye代替you，用em代替them。他还倾向于将sir、still和next等单词写在标准五步诗中，以创造额外的第六音节。

这些特征使得斯派丁和其他分析师认为弗莱彻一定参与了剧本创作。但是，该剧究竟是如何划分的，仍存在很大争议。还有一些评论家认为，另一位英国剧作家菲利普·马辛格(Philip Massinger)实际上是莎士比亚的合著者。

这就是为什么分析人士和历史学家都很想一劳永逸地确定是谁写了《亨利八世》的哪些部分。

在布拉格的捷克科学院，彼得·普莱查奇（Petr Plecháč）说，他使用机器学习解决了这个问题，从而确定了该剧中每一行内容的作者身份。普莱查奇说，“我们的结果高度支持斯派丁提出的莎士比亚和约翰·弗莱彻之间戏剧的规范划分。”

新方法原则上很简单。多年来，机器学习算法一直被用来识别作者写作的独特模式。

该技术使用作者的大量作品来训练算法，并使用一个不同的、更小的作品来测试它。然而，因为一个作家的文学风格在TA的一生中可能随时间等因素而改变，所以确保所有作品都有相同的风格是很重要的。

一旦算法学会了最常用的单词和节奏模式，它就能在从未见过的文本中识别出这种风格。

普莱查奇严格地遵循这种技术。他首先训练算法，通过与亨利八世同时创作的其他剧本来识别莎士比亚的风格。这些戏剧有《科里奥兰纳斯》、《辛白林》、《冬天的故事》和《暴风雨》。

然后，他训练算法识别约翰·弗莱彻的作品，使用的是他同时段写的一些剧本。

最后，他让算法在《亨利八世》上自由发挥，并让算法通过滚动窗口技术来浏览剧本，从而确定文本的作者。

结果很有趣。他们倾向于同意斯派丁的分析，弗莱彻写了几乎一半的场景。然而，该算法允许使用更细粒度的方法来揭示作者有时不仅在新场景中，而且在前一场景结束时是如何改变的。例如，在第3幕第2场，模型显示在第2081行之后出现了混合作者，又发现莎士比亚在第4幕第1场开始之前的第2200行再次完全独自完成了作品。