分享

“畅销书测量仪”:大数据能否发现下一个《哈利·波特》?

 造就Talk 2020-07-21

跟其他文化产业一样,出版业是建立在热门作品的基础之上,然而,预测畅销书这件事仍然是一项高深莫测的技艺,依靠的主要是直觉和有根据的猜测。

有时候这些预测让出版业大受裨益;其他时候则不然,尤其涉及到第一次出版作品的作家时。在签下让自己作品大红大紫的出版合同之前,J.K.罗琳(J. K. Rowling)和约翰·格里森姆(John Grisham)都曾接连遭遇退稿。

E.L.詹姆斯(E. L. James)更是在自助出版《格雷的五十道阴影》(Fifty Shades of Grey)之后才找到一家传统出版商的。
 
如果说有一种计算机算法能够辨识出畅销作品,而且成功率至少达到80%,你可能觉得那是科幻。

不过,“畅销书测量仪”(bestseller-ometer)绝对不是虚构事物,它是即将出版的大部头作品《畅销密码:畅销小说解析》(The Bestseller Code: Anatomy of the Blockbuster Novel)探讨的主题。

朱迪·阿切尔

这本书的作者是朱迪·阿切尔(Jodie Archer)和马修·乔克斯(Matthew L. Jockers)共同写作了此书,前者曾在苹果公司(Apple)负责研究文学市场,后者则是内布拉斯加大学林肯分校(University of Nebraska-Lincoln)的英语副教授。

这种算法被用于分析过去30年的小说作品并“预测”《纽约时报》上榜畅销书,其宣称的预测功效也正是基于此。
 
“畅销书测量仪”已经酝酿了数年时间,它是数千台计算机处理能力的产物,测量仪通过查询庞大的文本(2万本以上的小说)来找出畅销小说有别于非畅销作品的特点。

将这些特点放到类似于科学基础的原理中,该项目能够从数据驱动的层面检验畅销小说背后“秘密”的公认智慧。

而且,它也预示着未来有可能是这样一种状况,即出版商在挑选有望成为畅销书的作品时将借助技术来穿透迷雾。
 
不过,计算机算法如何能够体味文学的丰富性和复杂性呢?

詹姆斯·帕特森(James Patterson)写作的休闲沙滩读物以及乔纳森·弗兰岑(Jonathan Franzen)广受好评的文学小说都是畅销书,但风格如此迥异的作品之间有何共通之处?

另外,时代精神是一本书具备吸引力所不可或缺的背景,对此计算机又如何加以考虑?
 
* * *

2008年左右,“畅销书测量仪”的概念在斯坦福大学(Stanford University)被构想出来。

乔克斯当时是帕洛阿尔托校园里的一位讲师,同时也是“数字人文”(digital humanities)这一新兴领域的领先研究者——这里的数字人文就是把计算机实现的定量分析应用到文本上(之后,他参与创办了斯坦福大学文学实验室)。

阿切尔当时则是一位研究生,对计算机可以理解文学作品这件事“持怀疑态度”。

他们曾基于文本标记对莎士比亚戏剧的类型进行筛选,以此演示计算机模型的威力,但这次演示并没有减轻阿切尔的疑虑——作为一项计算技术壮举,筛选场面本身给她留下了深刻印象,但其余部分就“不过尔尔了”。
 
在运行计算机模型之后,阿切尔和乔克斯发现,这本书的第一主题是‘人与人之间的亲密关系’。


“那又怎样,我已经知道《麦克白》(Macbeth)是一出悲剧,”她向乔克斯催促道,“我们必须(提出)一个自己无法回答的问题,一个能够推动这个领域向前发展的问题。”

这个问题就是:“为什么我们都喜欢读同一本书?”
 
阿切尔对这件事的兴趣是在数年之前产生的,当时正值丹·布朗(Dan Brown)畅销小说《达芬奇密码》(The Da Vinci Code)掀起热潮,而她是伦敦企鹅出版社(Penguin)的一名编辑。

那本书遭到了评论界的广泛批评,然而却在读者中间大受欢迎(迄今为止的累计销量已达8,000万本)。

这其中是否真的存在《畅销密码》所说的那种“文字魅力”,能够在不知不觉中引起读者的共鸣?
 
阿切尔和乔克斯随后开发出的算法并不是人们首次试图把大数据拨云见雾的力量应用于分析书籍。

柏林的出版初创公司Inkitt在幕后操刀了所谓的“第一本由算法挑选出来的小说”,他们深入追踪读者发表在其网络平台上的小说评论,以期找出潜在的畅销故事。

伦敦的出版公司Jellybooks成立于2011年,他们会在文学作品生产周期的末尾阶段,也就是书籍即将出版之前,测量“读者参与度”——其办法是利用读者为了对作品先睹为快而下载到自己设备上的软件。

不过,“畅销书测量仪”独树一帜,它把老派的文学奖评奖机制加入到计算能力之中。


《畅销密码》是由阿切尔在2014年发表的专题论文扩充而成,这本书记录了“训练机器阅读”背后的复杂思考,并揭示了创作畅销小说所涉及的各种(在措辞和句法层面上的)微观决策。
 
“这些算法并不是魔法,”圣母大学(University of Notre Dame)英语学系的助理教授马修·威尔肯斯(Matthew Wilkens)说,他也是一位数字人文研究者。

“它们反映了深入阅读一本书时(所牵涉的相同)解释性和分析性选择;你在寻找特定的重复、词语的使用模式、主题上的侧重以及典故。一个不熟悉文学的人是无法完成这些工作的。”
 
* * *
 
那么,对于那种能够吸引所有读者的故事,一种经过适当训练的算法能够发表什么样的意见呢?
 
一些元素并不让人感到奇怪:具有权威性的“语气”;文风简朴、直白、多用口语、平铺直叙;用陈述性动词来描写动作型的主导人物。
 
其他的就没有这么明显了。通过编录跟特定主题相关的词语,阿切尔和乔克斯发现,畅销作者都有一种叙事主题“凝聚”的习惯。

丹妮尔·斯蒂尔(Danielle Steel)和约翰·格里森姆的小说一般有三分之一是围绕各自“标志性”主题写作的——斯蒂尔的主题是“家庭生活”,而格里森姆是“律师和法律”——这些构成了一种非常适合产生冲突的整体结构;他们可以在主题之间进行切换以制造戏剧性摩擦。

举例来说,在家庭之外,斯蒂尔常常把她的人物角色置于生死攸关的医疗状况当中。

相反,那些不畅销的小说往往杂乱分散,它们贪多嚼不烂,充斥着各种无关的主题。
 
还有一些研究结果出乎人们的意料:性描写并不是畅销元素。

事实上,根据“畅销书测量仪”的分析,性描写绝对只是少数人的喜好,它们在畅销书内容中只占有微乎其微的比例。


阿切尔和乔克斯在研究的早期阶段就有了这个发现,因此2011年存在大量热辣和露骨情色描写的《格雷的五十道阴影》(Fifty Shades)走红堪称逆转。

不过,在运行计算机模型之后,他们发现,这本书的第一主题是“人与人之间的亲密关系”(事实上,这也是他们分析的所有畅销书中最经常出现的主题),《格雷的五十道阴影》主要讲的是人物角色之间的亲密情感。
 
‘畅销书测量仪’最高尚的应用可能是……充当一种打破少数人统治的力量。

对于这本备受嘲讽的畅销书,计算机模型的分析揭示了其吸引力背后的更多线索。阿切尔和乔克斯利用小说中出现的煽情词语,描画出它的情感发展轨迹。

结果发现,小说情感起伏的推进节奏存在一种韵律。把这些东西标注到图表上,我们就能看到一个近乎完美的波形起伏曲线。

“詹姆斯在描写情感变化时带有一种节奏感,以至于读者的身体会感受到文字的震颤,犹如聆听一首动感音乐,”他们在报告中写道。

* * *

阿切尔和乔克斯否认了这样一种说法,即他们的算法已经为有志成为畅销小说家的作者找到一则通用公式。

他们认为,它们更像是一些具有指导性的数据点,事实上,他们的大部分研究发现揭示了基于共同基础的流行小说所可能选择的不同方向,也就是蕴含在形式当中的各种可能性。

举例来说,他们的算法确定了畅销小说的七大情节类型,另外,如果一个故事的结局令人感到郁闷,那么它就不太可能畅销(《畅销密码》指出,结局最好应该为续作留下悬念)。
 
此外,阿切尔和乔克斯同样否认了他们要去“颠覆”出版业的说法。

眼下,他们并没有商业化运作的计划;乔克斯把它描述为一种概念验证,是为验证这种方法解决文学问题的潜力所开发的“原型产品”。

然而,如果这种算法能够加强出版商在手稿阶段发现潜在畅销书的能力,那么他们开发出的东西就可能具有很高的价值。
 
约翰尼·盖勒(Johnny Geller)是伦敦文学经纪公司Curtis Brown的联席首席执行官,他对《畅销密码》非常感兴趣,并设法提前搞到一本,我在8月下旬采访他时,他已经读完一半。

盖勒看到了这类工具在出版“发现”阶段(即书商对作品进行筛选的阶段)的一种潜在应用。尽管如此,他认为,计算机算法将成为人类智慧的辅助工具,而不是有朝一日能够取而代之。

“我一直都在使用人工算法,但它们能帮到你的只有这么多,”他说,“你需要一个拥有真情实感、能够感到惊奇的人。”
 
克诺夫出版社(Knopf)的卡罗尔·巴伦(Carole Baron)表示,对于一种基于已出版作品开发的算法,她对其预测能力“表示怀疑”。

“如果不能把时代精神的因素考虑在内,你能预测文学和艺术的未来吗?我们总是感到惊奇。”巴伦曾担任丹妮尔·斯蒂尔、埃尔莫尔·伦纳德(Elmore Leonard)、朱迪·布鲁姆(Judy Blume)和其他一些大牌作家的编辑。
 
时代精神或许可以用来解释释戴夫·艾格斯(Dave Eggers)小说作品《揭密风暴》(The Circle)的命运。

“畅销书测量仪”把这本于2013年出版的小说指为过去30年的畅销文本典范,它具备流行小说的所有元素,畅销的机率高达100%。

算法是正确的,根据《出版商周刊》(Publishers Weekly)援引尼尔森图书监测(Nielsen BookScan)数据所做的报道,截至今年6月,《揭密风暴》已经售出22万本。但这些数据只能说可观,倒算不上多么了不得。
 

巴伦说,高度契合时代精神能够在一定程度上解释丹妮尔·斯蒂尔的成功,她是目前最受欢迎的畅销书作家(这是按照销量计算:斯蒂尔的作品总销量已经高达6,500万本,而且还在不断增加)。

“我曾对她说,‘你是一个引导者’,”巴伦回忆道,“我相信这些话语和想法已经流传于世,并且被一些人所接受。丹妮尔则会说,‘我有这样一个想法”,而全部的内容几乎就是倾泻而出。她会不断努力,但最初的想法是半夜里的灵光乍现。”
 
当然,斯蒂尔、帕特森和其他一些所谓的“特权”作家常年霸占着畅销书排行榜前面的位置,围绕他们形成的惯性意味着,出版商会越来越不愿意把资金投在不知名作家身上。

阿切尔说,这可能正是“畅销书测量仪”最高尚的应用所在,即充当一种打破少数人统治的力量,成为消除出版商顾虑的工具,令其押注新秀作家(比如尚未出名前的J.K.罗琳和约翰·格里森姆)——这些新手的作品可能因为缺乏名望而被扔进废稿堆,但手稿被算法相中之后将能获得第二次机会。
 
“对于爱荷华州某个刚刚写了本好书但却籍籍无名的作者来说,这种算法能提供巨大的帮助。”阿切尔如是说。

作者:Stephen  Phillips
翻译:何无鱼

来源:The Atlantic

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多