【量化历史研究】假如战争明天爆发：历史学能够预测到吗？

徒步者的收藏 2018-05-11

展开全文

本文为“量化历史研究”第 237 篇推送

苏联歌曲《假如明天战争爆发》海报，创作于1938年

（图片来源于网络）

这是一个晴朗的早晨，但是这世界并不安宁，谁都不敢说明天会发生什么。当被询问学历史有什么用时，几乎每个历史系学生都会抛出那个经典的信条，“读史可以明智、鉴往可以知来”。但是，假如战争明天爆发，历史学真的能够成功预测吗？

在中国的网络或者现实生活中，一直流传着这样一个传言，看每天新闻联播能够预测明日的股市。这不是无稽之谈。新闻联播中提到的很多要闻或者政策都会影响投资者的情绪和信息，甚至在2015年某证券机构还提出了新闻联播信心指数，据称还成功预警了多次股市暴跌。新闻联播报道的往往只是刚刚过去的事情，那如果以更为广泛的历史资料为基础获取更充分的信息，岂不是能够预测的更准确更长远。战争或者说武装冲突无疑是最重大的历史事件，如果说历史学真的能预测未来，那么在这个耗费了最多心血的核心问题上应该有所突破。

大量来自不同社会科学领域的学者都致力于研究一个人类很重要的问题：什么是战争根源？不少人基于长时段的历史数据，揭示了经济状况、自然灾害、社会矛盾等方面对于冲突爆发的影响。但是，这些研究主要是在总结历史经验教训的阶段，预测未来战争这种“为王者师”的事尚处于一个方兴未艾的状态。最近，Muelle和Rauh发表在American Political Science Review的论文，“Reading Between the Lines: Prediction of Political Violence Using Newspaper Text”，尝试利用机器学习的方法，基于历史文本，预测军事冲突在何时哪国发生。

主题模型的原理简单地来说即是，一方面，一个词在不同的主题背景下出现的概率不同，另一方面，在不同的主题背景下存在不同的高频词汇。因此通过一系列词的概率分布可以得到一篇文章的所属主题概率分布。如果是报道特定国家的一系列文章的话，就可以得到该国在舆论报道中的主题分布。

图1 主题模型

作者收集了新闻数据库中三家西方主流媒体（《纽约时报》、《华盛顿邮报》、《经济学人》）自1975年到2013年的全部文章，并且将约70万篇新闻报道与185个国家一一匹配，假设在t年底存在一个某国领导人，他能够了解到75年至t年对本国的全部新闻报道的主题分布和这些年中的一些自然社会状况（来自作者和前人整理收集的其他数据库），并且他知道过去哪几年是有冲突哪几年是和平的，由此这个领导人审时度势，对明年乃至于到t+n年的局势做出预判。

前面1975年到t年的数据就是训练集，而未来的情况就是来评价预测结果的测试集。机器通过训练集模拟这个领导人对过去这些信息进行训练学习，学习的结果即预测模型再来对测试集进行预测，最后将预测的与实际的结果比对，来分析基于主题模型的机器学习是否成功。

图2 新闻文本数据

利用新闻文本来预测政治事件这个构想本身并不令人惊奇，因为在互联网出现之前，最重要的情报来源即是大众传媒，特别是对于那些较为封闭的国家而言。提取主题模型，然后再根据主题模型在某国的分布与比例来训练机器，进行对未来该国是否稳定的预测，相当于模拟过去情报专家或者分析员对一国未来局势进行判断。作者认为其除了数据的广度和精度有了进步之外，最大的贡献是给预测模型增加了国家固定效应，从而尽可能避免了以前的工作最后结果往往出现的“乱国恒乱”，而对长期安定而突然发生动乱的国家难以做出及时预警的情况，就像2011年，几乎没有中东问题专家能够预测“阿拉伯之春”的发生。也就是说，作者不仅是想要知道哪个国家会发生冲突，也想确定如果是这个国家的话，战争将何时爆发。

与常见的回归模型追求的最大拟合不同，对于一个机器学习模型而言，它需要尽可能准确地预判某个情况，减少错误的判断，又要在保证准确率的同时减少疏漏。简单地来说就是要做又全又准的判断。但是往往这很难做到两全其美，所以常常以两个指标得到的散点曲线（ROC）所覆盖的AUC面积作为一个综合考量。模型总体上是较为成功的，在真阳性率（确诊率/召回率）0.8的情况下大致能够做到假阳性率（误诊率）0.2，并且如果是预测未来的内战冲突的话会比其他战争更有效一些，同样召回率下有更低的误诊率，AUC也更高。

图3 预测结果（真阳性率-假阳性率）

作者百般考虑的国家固定效应，在加入到预测后也确实帮助模型更优化。而其他学者提出的诸如气候、政治制度、经济状况等等会影响战争爆发，作者也分别进行了预测，结果发现基于主题分布得到的模型预测结果会优于其他。特别是如果加入国家固定效应后，其他几类模型会相比主题模型的预测结果逊色不少。这些工作也经得住稳健性检验，作者改变主题模型的参数或者改变预测的对象等，结果依然成立。总体而言，经过作者完善的模型，能让我们有信心在允许判断出现20%失误的前提下，对80%的动乱成功做出预警。

那么，作者得到的模型能够预测到“阿拉伯之春”吗？这恐怕还有很长的一段路要走。如果仅以过去享受持续性和平的国家作为样本，让模型来预警长期稳定的国家爆发的突发性冲突，因为对于这些国家而言，战争更是特例中的特例，所以即使是较低的假阳性率（误诊率）下为了有较高的召回率（大于0.6），它的精度也只有0.1左右；也就是说，如果让这个预警机制真正起作用的话，它发出的10次警报可能有9次都是“狼来了”。尽管如此，十分之一的概率对于战争冲突如此生死攸关的事情来说依然是有意义的。毕竟虚惊一场总好过大难临头不自知。

图4 预测结果（精率-真阳性率）

接着，作者考察了预测模型的决策机制，也就是哪些主题能够让机器更倾向于作出预警的判断。因为存在有15个主题模型，作者使用了LASSO回归，以调整不同回归损失“惩罚”力度下的主题变量选择。从不同的结果看，一个国家的舆论报道中有关于冲突本身主题的比例越大，其爆发动乱的可能性越大，而关于经济、法治的报道越多，该国也越能够维持稳定。如果将这些经济、（正面的）法治等软性报道单独拿出来去预测冲突，结果也比较不错。作者还发现，有关法治的报道在冲突前一年会显著地减少，而在冲突之后几年再次回归稳定后显著增加。

当然，这些发现都不同于之前研究中的因果联系，都是相关性层面上的。比方说很难回避其中的互为因果问题，主流媒体报道会影响西方国家决策，而其国家意志反过来又影响媒体报道的立场等等。但是无论如何，从追求预测的角度，相关性的发现也不应该过多地求全责备。

图5 LASSO回归结果

当那一天真的来临，我们能够根据过去的历史文本成功预警吗？从何地的角度讲，很多模型已经有较好的结果；如果要追求何地何时的话，作者通过添加国家固定效应和提取新闻报道主题概率分布，为这个问题做了新的突破。但是，如果像如歌中所唱的那样，今天是一个晴朗的早晨，那明天那场暴风骤雨是很难意料的，假如战争明天就要爆发，想要在今天就有可靠的预警，还需要漫长的探索。作者的研究除了在计算社会科学领域贡献了一个新的机器学习范例之外，也为当下不断应用的大数据舆情分析提供了一个宏观实证经验。

文献来源：MUELLER, H., & RAUH, C. Reading Between the Lines: Prediction of Political Violence Using Newspaper Text. American Political Science Review, American Political Science Review (2018) 112, 2, 358–375.