什么不是数字人文

标准生活 2019-10-24

展开全文

人大复印报刊资料官方公号联手人文社科各大期刊，隆重推出专题系列推文，凡是人文社会科学领域有重大研究价值和社会意义的专题，都可申请推广，专题选文标准参照人大复印报刊资料选文标准与规范，欢迎各杂志社自荐专题，荐稿地址：lgh1313778@sina.com或1989645800@qq.com，（推荐形式：专题主题+推荐理由+期刊目录＋专题原文（pdf+word））。

作者简介：王涛、邱伟云、姜文涛、戴安德

什么不是数字人文

王涛

最近几年，笔者参加了许多冠以“数字人文”的主题会议，欧洲的、日本的、台湾地区的，当然也包括大陆许多高校组织的会议。这些数字人文会议有一种共性的观感：议题极为宽泛，从传统学科的角度看，涉及不同研究领域，其差别之大，让人很难想象竟然能够出现在同一个学术会议之上。会议的讨论虽然精彩纷呈，但是由于专业差别过大，与会者很难达成专业讨论的共识，无法从专业的角度给予充分响应。比如，当有研究者用社会网络分析（SNA）的方法来研究流亡犹太人的互助网络时，没有学者能够从德国史的角度提出SNA分析模式与犹太人研究的契合度问题，也没有学者从纳粹政治史角度提出互助网络存在的权力空间问题。

笔者在几年前的文章中就表达过对这种现象的担忧，最近，随着数字人文会议愈加火爆，领域专家知识结构不对等的现象愈加突出。这成为数字人文发展的一个极大陷阱，让人感觉似乎数字人文的方法论远远高于研究的问题本身：议题是否获得了解答、解决的逻辑是否合理，这些都不重要，重要的是这个研究课题（表面上）使用了数字人文的方法。

之所以会这样，乃是因为数字人文还没有落地到学科专业本身，也就是说，数字人文依然需要关注传统人文学科的价值观，讨论和分析人文学科（历史、文学、哲学等）试图解决的问题，而不是热衷于奇技淫巧之“术”的层面。被视为数字人文标志性人物之一的莫雷蒂，在早些年接受采访时曾对数字人文发出尖锐的质疑。他的态度在当时看来似乎很难理解，而如今却越来越能体会，在没有结合具体专业讨论的时候，数字人文的意义确实值得怀疑。

那么，数字人文是否需要限定自己的学术领域，讨论“什么不是数字人文”这样的问题呢？笔者一直很好奇，有一些学术领域，比如环境史、社会医疗史，从来都具有不言自明的研究范畴，研究者也不会热衷于讨论“什么不是环境史”这个不成问题的问题。为何数字人文领域的研究者非要讨论“什么不是数字人文”不可呢？

当然，数字人文有其特殊性。尽管数字人文是一个方兴未艾的学术新领域，最近几年在国内学界也日益成为话题，但是实践者们对于数字人文的概念还没有达成共识。大家都依照自己对这个方向的理解进行概念界定、指导自己的研究活动。中国的学术传统讲究先正其名。有时，当一个概念无法从正向进行定义的时候，从反面指出这个概念不是什么，或许会相对容易一些。所以，我们思考什么不是数字人文，对于我们理解什么是数字人文显然是很有价值的。

不过，同样因为数字人文的特殊性，使得这个问题并不那么简单。单纯地考虑什么不是数字人文，然后期待给数字人文划定一个范畴，这并不是解决问题的合理方案。

首先，数字人文虽然属于学术新天地，但若追溯起来，会发现它有漫长的史前史。苏珊·霍基（Susan Hockey）在《数字人文指南》中还原了数字人文的发展历程。她把数字人文的学术史划分为四个阶段，从现在的眼光看虽不太全面，但足以让我们惊呼：原来数字人文不是无中生有的学科领域！数字人文的发展与技术进步和学术理念的拓展有密切关系，所以“什么是数字人文”本身就在不断演变的过程中，根本没有静态的标志物。在当前勾勒出“什么不是数字人文”的图景，只能基于当下的技术条件和学术理念，未必赶得上数字人文本身快速发展的节奏。作为数字人文公认的史前史时期先锋人物，罗伯特·布萨在近70年前进行的工作，跟当前色彩斑斓的数字人文项目相比，还有多少相似之处呢？同样是数字数据的存储和整理，几十年前基于磁带介质和关系型数据库，而现在推崇云存储以及关联数据，更在积极倡导数字的基础设施建构，但我们能说之前的项目不是数字人文吗？

其次，之所以要讨论“什么不是数字人文”，主要因为在“数字人文热”的浪潮中，出现了一窝蜂上大项目、成果良莠不齐的状态。一些低劣的“数字人文”研究，降低了数字人文的学术性和被学术界接纳的期望值。所以，近期出现了不少质疑数字人文研究价值的言论，甚至像笪章难（Nan Z. Da）那样，用“计算的方法反对计算文学研究”。在某些方面，这些质疑有其合理性，至少能够激发数字人文实践者卧薪尝胆，通过不断取得进步来响应各种怀疑。在这样的语境下，讨论“什么不是”的问题，对于建构数字人文的学术标准、支持其持续性发展具有积极意义。

但从另外一个方面说，低水平的、重复性的所谓数字人文研究成果，从通行的学术标准来看，也不是合格的学术研究，更遑论“数字人文的”学术研究了？什么是学术研究，对于严肃的学者而言，正如“头顶上的星空”一样有严格的道德律令，史料扎实、论证清晰、言之有物，都是各专业学者需要共同遵守的学术道义，虽然不同的研究领域在细节上可能略有不同，但肯定都有一个基本的前提，研究工作应该有明确的问题意识。可惜的是，在多快好省地发展数字人文的过程中，很多人的研究迷失在数字人文新概念、新方法的海洋。简而言之，离开问题意识谈数字人文，做出了不尽如人意的成果，这个锅其实不该由数字人文来背，而应归罪与基本的学术素养不过关。如果就此达成了共识，那么“什么不是数字人文”的讨论就显得有点多余了。

更重要的是，数字人文向来倡导跨学科的融合，如果非要划分出一亩三分地出来，是否违背了数字人文开放、开源的精神呢？在这个意义上，笔者并不认可安妮·伯迪克（Ann Burdick）等人在《数字人文》一书中关于“什么不是数字人文”的回答，他们将“单纯使用数字工具进行人文学研究与交流”排斥在外，这不仅跟他们将数字人文界定为“充分运用计算机技术开展合作性、跨学科的研究”存在些许矛盾，而且设置门坎的方式乃是将部分人文学者拒之门外。这种通过划定清晰的学术领地来捍卫数字人文合法性的做法，当然是在兑现“数字人文宣言2.0”的精神，有其可贵的价值。但是，按照伯迪克们的说法，布萨早期进行整理托马斯·阿奎那作品索引的工作，还算不算数字人文项目呢？

当前数字人文发展的瓶颈，不是计算技术不先进、数据科学不高效，而是“人文”色彩彰显不充分。我们要吸引更多人文学者加入数字人文，从工具性的理解开始，或者“以数字的方式开展人文研究”作为起步，然后带来工作方式的改变以至于思维方式的飞跃。这才是数字人文能够得到纵深发展的正确途径。

第三，当前人文学科的学术环境和评价体制，决定了数字人文还远没有做好响应“什么不是”的准备。数字人文不仅从方法论上带来了人文学科的改变，对个体学者的工作方式也带来了质的变化。传统学者崇尚自由之思想、独立之人格，强调研究过程的独立性以突显原创性。但是，数字人文的工作方式完全打破了人文研究单枪匹马的状态，不仅主张团体作战，而且需要协同合作。但是，人文学术界还没有出现对这种工作状态给予合理评价的机制。

对于一位要在学术圈谋生存的青年教师而言，在SSCI一区的刊物上发表一篇署名第三作者的论文，还是通过独立研究在《中国社会科学》上发表一篇论文，哪个更有利于自己的晋升呢？答案不言而喻。另外，数字人文有着比传统的研究论文更多元化的学术发表形态。一个网站，一个APP，一个数据库，甚至微博里不超过140字的一段话，都可能是基于数字人文的研究成果。但是，在传统学术量化的评价指标体系里，这些通通不算成果。许多项目制的数字人文课题，最合适的成果发布平台未必是核心或权威学术刊物；学者为完成考核指标而炮制出论文，伤害的反而是数字人文研究的学术质量。但话又说回来，青年教师是否有勇气不发论文，不申请课题呢？

因此，在学术制度层面的设计还没有完善的前提下，数字人文实践者不得不既要顾虑传统学术评价的指针，又要怀抱数字人文跨界创新的理念，这就只能在夹缝中推进数字人文的研究，甚至退而求其次做出不伦不类的成果。不是数字人文实践者们不够勤奋，而是他们不得不负重前行，付出双倍的努力。在现有学术背景下，过多强调“什么不是”的问题，只能束缚个体研究者的学术雄心，却对整体大环境的改进无能为力。如果我们过分强调“什么不是数字人文”的追问，只能将板子打到个别实践者的身上，而对学术机制毫无撼动；殊不知，挨板子的实践者也是体制的受害者。从长远来看，这不仅对数字人文本身的发展不利，而且可能对人文研究的整体发展带来负面影响。

笔者一直以来都在课堂上教导学生，如果数字人文是一种方法，那它存在的价值是为了帮我们解决问题；如果把数字人文作为打开研究思路的一种途径，实现所谓“数据驱动”的过程，那么使用数据挖掘的方式找到隐藏的问题之后，也需要回归到学术语境中，合理进行“论证驱动”的过程。所以，没有问题意识，急就数字人文，不过是夸夸其谈。正常的逻辑是，遇到了需要解决的学术问题，在寻求答案的时候发现，数字人文提供的方案效果还不错，那么我们就用起来。哪怕是你用wget下载了网络资源，用文本挖掘“遥读”了一堆文献，都属于能够被数字人文接纳的范畴。如果反其道而行，研究者仅仅是被数字人文灿烂的前景所吸引，想赶个学术时髦，方法先行，为了数字人文而数字人文，那就本末倒置了。造成这种局面的原因，在笔者看来，就是许多数字人文的研究没有成熟的问题意识。用词向量的方式来寻找文化中的偏见，就是很好的案例，如果在研究过程中没有强烈的问题意识，再好的工具也仅仅是算法而已。

数字人文领域知名学者艾伦·刘（Alan Liu）在很多文章里鼓励大家，数字人文需要扩展批判性思考的范畴，虽然数字人文学者不乏对元数据的批判性思考，但鲜少延伸到对整个社会、经济、政治或者文化领域的批判。艾伦·刘强调的批判性，当然是人文知识分子赋予自己的神圣职责，然而数字人文的工具性层面，并不会天然具有批判性。正如人文学者用计算机写作，但计算机作为书写工具不会天然被赋予批判性一样。批判性的缺失，充分说明数字人文也有其局限性，在某些问题上无能为力。从本质上看，杀牛刀在普通的屠夫手中就是一把杀牛刀，但是在庖丁手中就如同艺术品能够游刃有余；数字人文在善于思考的研究者手里才会是一件学术利器，而不单纯是一门“技艺”。

总而言之，“什么不是数字人文”并非当务之急的问题。对个体学者而言，拿出有分量的研究成果，做出有学术价值的数字人文项目；对学术共同体而言，创设数字人文更合理的学术环境，才是未来发展的必由之路。这需要所有数字人文的实践者们共同努力，像传统学者那样坚守学术道义，深耕专业，不忘初心。

判别数字人文的两个准则

邱伟云

在数字人文萌芽之初，我们需对其定义采取开放性态度，暂不进行“划定疆界”的定义工作，以免使其内涵过于贫乏。而如今，划定疆界的时刻已经到了，因为从正面对数字人文下定义的工作已持续了将近十年，这一概念中已经填满了各种可能的内涵，以至于其独特性与合法性开始被质疑。为避免扼杀数字人文发展的其他可能，我们在划定疆界时须采取一种宽泛的态度，尝试提出判别数字人文研究的准则。采用较有弹性的划界方式有两点好处，一是能调整数字人文研究的方向，确立其合法性，二是能继续保有为数字人文概念填充内涵的空间。这正是笔者讨论“什么不是数字人文”这一问题的基本态度。

一、不具人文性的研究不是数字人文

我们必须给数字人文勾勒出一个轮廓，即其与众不同、无可取代的合法性根据，人们可以在其中持续填充新内涵而不逾越基本疆界。笔者认为，这个轮廓就是“人文性”（humanity）。所谓的“人文性”，可以尝试透过人性、人类、仁、慈爱、文学教育、文学等概念去掌握，其共同指涉就是“人的情感”，不论是大我或小我的情感。数字人文研究中的“人文性”，就是指在研究中必须要有人的情感和思考方式，亦即算法必须密切结合人文理论（由人的思考而成的理论），而对数据的解读也必须要有人文价值（能够回答人的问题），从而在具有“人的情感”的温度下进行数字人文研究。反过来说，如果不具“人文性”，那么就不是数字人文研究成果。

例如之前看到一些数字人文研究成果，虽也是运用数字技术进行的人文研究，但细观其内容，虽然在算法上运用了最新的处理技术，但却未对数据赋予“人文性”的解释，未分析数据背后的人文信息及其背后的人文情感，没有深入到人文与历史的脉络中去。这样的数字人文研究就只是半成品，而不是真正的数字人文研究。在进行数字人文的算法研究时，不能只专注于算法，而必须要结合人文理论，思考算法在人文研究上可带来的人文意义与价值；而对数据的解读也必须从人文角度出发。不具“人文性”的数字人文研究，只是点缀了人文的计算机算法研究而已。目前海内外学界对数字人文最多见的批评之一，就是重编程而轻人文。笔者从2010年开始从事数字人文研究，至今将近十年，深知数字人文研究绝不应重编程而轻人文，而应兼重数字算法与人文诠释。令人担忧的是，现在的数字人文研究论文中，大量充斥着重编程而轻人文的研究成果。这一方面会导致局外人（非数字人文研究者）以重编程而轻人文的刻板印象来污名化数字人文研究；另一方面则会引发局内人（数字人文研究者）的争论。

从以上论述可见，讨论“什么不是数字人文”是有对话对象的，那就是认为数字人文研究就是简单的“数字＋人文”研究模式的群体。这样的研究看似有数字人文的外貌，但却没有数字人文的精神，在研究结果中往往看不出任何人文价值、意义与关怀，人文多成为点缀和算法处理的“对象”。在这一框架下，容易以算法为主，这时算法的优劣与否就无法从人文角度去判断其召回率与准确率，因而失去算法的判据。例如某些研究者以为只要找到一批数据以及一种算法，就可以将两者结合计算出来的数据强加解释。这看似有道理，但却可能形成为数据而论述的带有偏见的结论。这样没有人文温度的“数字＋人文”研究，就不是好的数字人文研究。在数字人文研究中，不管算法和人文分析的比重孰高孰低，关键是要以“人文性”为最终关怀。只有采用传统人文研究的思考方式去考察文本研究对象，自觉地从“人文性”出发，才能自觉意识到“数据”也可能带有错误与需要修正之处，而能对算法从“人文性”角度提出修改建议。

从知识社会学视角看，“数字＋人文”模式的研究将招致计算机学界和人文学界两个知识群体的夹击。计算机学界会认为这类研究虽然在算法上精进，但却看不到算法研发背后所要处理的议题的价值和意义；而人文学界则会认为这种以算法为主的研究，并未处理与解答任何重要的人文问题，因此还不如传统的人文研究方式。“数字＋人文”模式是两面不讨好的。

二、太轻易完成的研究不是数字人文

在许多人的想象中，数字人文就是用些软件跑出数据并进行解释，整个研究大概不到一个月就能完成。这种研究太过简易，得出的结论也未必比得上长期浸淫于史料的传统人文学者。作为长期投入数字人文研究的工作者，笔者实有义务去揭示数字人文研究中的辛苦，并就此再提出一项判别数字人文研究的标准：太轻易完成的研究不是数字人文！

偶而可听到某些人文学者很不谦逊地说，数字人文中的数据就是用计算机跑一跑就会出来，重要的是人文学者对数据的诠释。这类学者的发言与态度，笔者认为也绝非数字人文的真精神。因为一个“跑”字，实则蕴藏着对数据处理工作的无知与轻视，殊不知“跑”字背后是大量繁琐的数据清理工作、算法从无到有的构思工作，以及无数的无效实验，最后才能给出一个展现在人文学者面前的算法与数据结果。真正的数字人文研究项目，绝不是简单地运用一些既有程序，按几个按键，画出几张漂亮的图案，然后对视觉图像数据解释几句就万事大吉了。

DHer（数字人文学者）横跨在人文与计算的交界处，可以同时体会到计算机与人文两个学界对数字人文研究的误解。两个学界应彼此虚心学习与互相欣赏，了解对方的辛苦，这样才能使数字人文研究健康发展。因为，谁也不愿意跟无法共情的人协同研究，谁也不愿意成为对方的“工具人”（有些人文学者把算法当做一种炫技的工具或带有定量光辉的装饰，而把计算机学者当做跑程序的工具人）或是“拾人牙慧者”（有些计算机学者对以人文学者为主的数字人文研究进行批评，认为其重人文而轻编程，甚至说这类研究是拾人牙慧，即用最简单的算法作出的非常基本的研究）。那么，到底在数字人文研究中，各自的辛苦在哪儿呢？在数字计算方面，数据清理和数据挖掘这两项工作都非常辛苦。虽然可以透过计算机自动清理，但通常还需人工过滤清理得更为干净后方能达到研究的标准。以笔者的经验，每每问学生是否愿意从事数据清理工作时，学生都会说这工作太枯燥乏味。从人文方面来说，假若认为人文诠释一点也不辛苦，只是靠嘴皮子，那也不是数字人文研究者该有的态度。因为人文学者在拿到数据之后，得比过去在选精集粹视野下的研究看范围更广的文献，才能理解与合理解释数据背后代表的历史意涵。这样的解释除凭借人文学者长年积累外，也需依靠对史料与数据的对应与重读，这工作是非常辛苦的。总而言之，数字人文研究一定比过去单一学科下的研究过程要更辛苦。

对算法重要性的无知，或认为算法至上的傲慢，这两种态度都不该出现在数字人文研究中。人文学者该体会“跑”字背后数十个小时的清理数据与构思、测试算法的辛苦，而计算机学者也该体会“诠释”背后数十个小时的语料阅读与数据分析工作，不论是“跑”或是“诠释”都是不容易的，只有对数字计算和人文诠释两方面工作各自的辛苦产生共情，才能让数字人文有更长久的发展。

三、退而远瞻数字人文的未来发展

金观涛先生曾说：“反思的本质是人可以从他当下生活的意义世界中跳出来，或退而远瞻，或进入他所陌生不喜欢的价值系统，以获得对意义世界的新认识。”（金观涛：《数字人文研究的理论基础》，收入项洁主编：《数字人文研究的新视野：基础与想象》，台北：台湾大学出版中心，2011年，第11~24页。）上述主张中的“退而远瞻”，正是笔者认为当下应对数字人文发展进行的重要工作。退而远瞻，才能抽离于数字人文之外去审视数字人文的发展方向，藉以调整与修正，进而重新出发。为了退而远瞻，可以从知识社会学的视角对“数字人文”作一个危机的情境报告，一方面让参与过数字人文研究过程者（局内人）能透视该项过程，另一方面也让未参与过数字人文研究过程者（局外人）对这一过程有更深入全面的理解。藉助知识社会学的退而远瞻，能把局内人与局外人的观点综合讨论，以避免盲点。

就知识社会学来看，有两种看起来很相似的研究，一是人文关怀为主的数字人文研究，一是算法为主的数字人文研究。这两种研究成果都被视为“数字人文”研究，但以人文为主的研究更为侧重人文解释，算法可能相对简单；以算法为主的研究侧重算法的更新迭代，而所解决的人文问题则往往比较单薄甚至被悬置。当数字人文研究出现这种貌同神异的情况，且以算法为主的论文又能更快发表时，就会造成以算法为主的研究成果笼罩整个数字人文研究的现象，这就导致人文学者对数字人文研究产生距离感和隔膜，最终致使人文关怀为主的数字人文研究的萎缩和算法为主的数字人文泡沫式的繁荣，造成人文学者对数字人文重编程而轻人文的刻版印象，甚至形成一种对立结构。这种对立结构是令人担忧的，因为数字技术引入人文学界，绝不是要让算法凌驾于人文研究之上，而是要帮助人文学界拓展与解决过去未能处理的研究视野与问题。因此，需要改变数字人文研究领域以算法为主的研究成果一家独大的现状，而给以人文为主的研究成果更多的空间，只有这两种数字人文研究成果共存与互动，数字人文研究才能良性发展。因此，划定“人文性”作为数字人文的疆界，并强调计算机学者与人文学者之间的互相体谅与理解，在当前这个历史时刻有其紧迫性和必要性。这对于调整数字人文研究的结构，迈向下一个发展阶段，将产生重要的影响。

很庆幸如今我们能够开始谈“什么不是数字人文”这个问题，这个问题的提出揭示着数字人文研究发展的第一阶段，即从正面定义提出的阶段已经接近结束，从而进入一个新的阶段。正是在这样一个新的阶段里，才会产生上述退而远瞻的提问。这样的提问其实也揭示出数字人文研究第二阶段发展的方向。在关于“什么不是数字人文”这个问题的讨论与思辩后，希望数字人文研究能够对重编程而轻人文的现状有所修正，向一个兼重数字算法与人文诠释的健全方向迈进。

什么是好的数字人文

姜文涛

在2000年左右，“数字人文”这个术语开始进入人们的学术视野和话语之中。作为一种将计算、统计和人文阐释结合在一起的方法，其包涵的内容非常宽泛，甚至可容纳媒介文化研究、软件研究、图书馆博物馆的基础设施建设、数字阅读与写作平台、数字教学等。这使得数字人文必然具有跨学科的特征，有人认为它会带来某种人文社会学科内部及与理工学科之间的融合。但数字人文的发生发展，也一直伴随着各种争议和质疑。有人指出，人文学科尤其是文学和艺术的研究，依赖于研究者的理解力、同情力、想象力和现实感，而量化研究排除了研究者的主观性，这会导致“人文”的丧失。还有人认为，数字人文采用量化研究方法迎合量化行政管理，争取到更多学术资源，从而影响了传统人文学科的发展。其他的批评还有，数字人文研究未取得划时代的成果，缺乏学术研究的深刻性和历史感，只是传统文本研究的延伸和点缀，等等。与此同时，数字人文的概念也在不断扩大和模糊化。

在此背景下，我们更应当以积极而又审慎的态度来推动数字人文的发展。笔者并不想急于为数字人文下定义或把某些研究排除在数字人文之外，而是认为，与其追问“什么是数字人文”或“什么不是数字人文”，或许更好的提问方式是“什么是好的数字人文”，以及“如何做好的数字人文”。

我们并不确定数字人文会占据什么样的知识空间，以及会产生什么样的问题，但相信好的数字人文研究最终能够赓续和增补人文学术的传统。无论是从长时段的人文学的脉络中定位数字人文，还是从具体的方法和研究出发得出具有人文学普遍意义的分析，这两个层面上的讨论都有助于思考“什么是好的数字人文”，进而巩固数字人文研究的基础。一方面，从学科史的视角考察人文社会学科发展的内在逻辑，可以探究数字人文方法促进人文社会科学研究的可能性；另一方面，数字人文作为研究方法和工具的特殊性，使之具有在人文社会科学各个学科之间搭建跨学科桥梁的可能性。前者是数字人文的纵向拓展侧面，后者是其横向扩展侧面，从而构成一种“十”字面向发展的数字人文研究。通过纵横两个方向的检视，我们可以判断出真正具备人文社会科学学术意识、顺应学科发展趋势的研究，这些才是健康可持续的数字人文研究，也就是好的数字人文研究。笔者不揣浅陋，以自己比较熟悉的文学和文化研究领域的数字人文研究为例，尝试提出“好的数字人文研究”应具有的几种意识和素养，以期引起相关的思考和讨论。

（一）人文学术意识

我们常听到这样的说法：数字人文时代来临了，传统的研究和阐释方法会被淘汰，人文学术研究将迈进新的纪元。笔者认为这是一种学术方法上的达尔文主义，它会扼杀人文学术研究的精神和灵魂，而数字人文在此会充当“特洛伊木马”的危险角色。这是急需要避免的学术研究发展趋向。人文主义的历史非常悠久，现代人文学科则主要是随着近代印刷文化的兴起而产生的一种知识机制。随着数字信息技术的发展，印刷文化的基础设施日渐与数字媒体的基础设施交叉在一起。在这样的背景下，我们需要继承人文阐释的悠久传统才能继往开来，才有可能进而创造出新的知识生产形式和社会文化形式。在英文中，“数字人文”中的形容词“数字（digital）”之“digit”也是“手指”的意思，这就强调了其中“人”的因素。当然，这并不是说数字人文研究不可以提出新的有价值的问题。事实上，我们逐渐由19世纪以来印刷文化占据主导地位的时代，过渡到数字文化占据主导地位的历史时期，日常生活和学术研究中的各项基础设施都发生了相应的变化，这是数字人文应运而生的社会物质条件。一时代有一时代之人文学术。我们有充分的理由相信数字人文会提出有价值的人文问题、会以自己的方式推动人文学的发展。但需要强调的是，这些问题和发展并不会凭空产生，其基础仍是人文学悠久的阐释传统。这是数字人文研究整体上的意义所在，是根本中的根本。斯坦福大学文学实验室主任马克·阿尔吉-休伊特（MarkAlgee-Hewitt）教授阐述得很清楚：“‘文化分析学’（按：数字人文研究许多名称中的一种）不是要用数学严谨性取代学者们数百年来发展出的阐释技巧的虚拟人文学科，而是增强的人文学科，在最好的情况下，能展现最仔细的细读读者也往往忽视的新类型的证据和仔细考虑过的理论观点，二者联手产生新的批评研究。”（马克·阿尔吉-休伊特，《文化分析学是增强版的人文学科，不是没有阐释技巧的虚拟人文学科》，济南：《山东社会科学》，2019年第8期）这种增强的人文研究，需要具备传统人文学科的学术训练以及数字人文基本方法训练这两个方面的准备工作。这是开展好的数字人文研究需要具备的前提意识。

（二）社会科学素养

有一些学者将数字人文文学研究归结为20世纪六七十年代以来文学研究社会学转向的一个部分。（参见James English, Everywhere andNowhere: The Sociology of Literature After “theSociology of Literature”, New LiteraryHistory, 2010, 41）这种学术史上的定位不无道理。数字人文研究的许多个方面的确是与社会科学密不可分的，比如统计学、心理学、社会学等。在这些学科中，量化研究与质性研究之关系的讨论、方法和实践已经相当多了。正如澳大利亚国立大学的凯瑟琳·伯德（Katherine Bode）所说：“文学的意义不是单一的，而是社会构成性地锻造而成，在这个社会里，特定时刻中特定范式（历史的、哲学的、心理学的、社会学的，现在是统计学）的突出地位塑造了我们所知的一切和理解这一切的方式。任何情况下，学科的纯洁性都无法保护贫乏的方法论，跨学科性能增加方法论意识。”（凯瑟琳·伯德：《需要对用机械方法研究文学数据、统计学和机器学习进行更多的批判》，济南：《山东社会科学》，2019年第8期）好的数字人文研究者应该具备一定的社会科学学术研究的素养，有意识地从这些学科汲取方法论上的能量，以防止停留于数字炫技或者是过度人文阐释的层面上。当然，这并不意味着文学研究或者总体上的人文研究领域要成为社会科学方法的附庸或者是殖民地。相反，好的数字人文研究，应该对所研究的问题以及所使用的研究方法在本学科学科史上的意义有充分之了解。

（三）学术史和学科史的视野

有价值的学术问题的组织和提出一定是具有学术史和学科史视野的，建立在对学术史上对该问题或相关问题已有讨论的基础之上。自19世纪以来，作为知识生产制度的科学技术、人文与社会科学成为大学里不同的学科，它们所涵盖的知识讨论对象、范围和方法各自不同，形成了彼此不一样的知识体系和传统。1990年代以来，跨学科研究和讨论（尤其在人文学科方面）成为一种学术潮流，也产生了一批有价值的学术成果。数字人文具有天然的跨学科和学科融合的潜质。然而，我们需要注意到，所有成功的跨学科研究无不建立在本学科严谨的学科训练的基础之上。从学者学术生涯生存策略上来讲，对学术史、学科史的重视也是很必要的。目前在数字人文研究领域活跃的多为年轻学者，如果他们的研究不获得本学科内部的承认，很难想象他们能在本就壁垒森严、竞争激烈、考核严格的学术界生存下去。具体到人文学科中之文学研究方面，它与数字人文方法的结合尤其容易引起争议：一边是统计技术和量化方法的抽象，一边是非常复杂的传递情感与美感的语言修辞。这种人文与技术的机械性对立是较为常见的。在最近的一场有关数字人文的学术论争中，美国圣母大学笪章难教授就重提了语言修辞和阐释的复杂性，并以基本统计原则从实证层面讨论了计算文学研究中较为典型的学术作品，通过指出其中许多的技术问题、逻辑谬误和概念缺陷，论证计算文学批评的方法论和理论前提并不适用于分析文学、文学史和语言学的复杂对象。（笪章难：《以计算的方法反对计算文学研究》，济南：《山东社会科学》，2019年第8期）如果没有人文学科研究方法和学科史方面系统的训练，而只通过统计或计算技术进行炫技般的学术表演，那也许并不符合基本的学术研究标准，遑论数字人文研究。

（四）数字方法和技能

远在“数字人文”这个术语在2001年出现之前，在其前身“人文计算”方法之中，实验的先锋性就是一个很凸显的特征（关于“人文计算”的历史，参见Susan Hockey, TheHistory of Humanities Computing, A Companion to Digital Humanities, Ed. bySusan Schreibman, Ray Siemens, and John Unsworth, Oxford: Blackwell, 2004），它发展出了一系列的研究方法。比如社会网络分析、GIS、机器学习、可视化、情感分析等。这些方法是量化和模型的方式，是数字技能的体现。这是作为“增强版”的数字人文对于从事人文研究的学者提出的新的技能要求，即学习Python或R语言等编程方面的知识，或者对统计学的高阶掌握。在理想的情况下，数字人文研究者应该自己学会编程语言，这是一种脚本编写语言素养。在脚本编写的时候，某个概念也会逐渐成形。这个过程是思索数字人文研究问题很重要的一个侧面。如果研究者并不具备编程语言方面的技能，那他或者她至少要与具备这方面技能的人员有较为深度的学术合作。这是因为，不同的方法和技能常常意味着不同的问题意识，或者是处理问题的不同的路径，往往会导致不同的研究结果。

（五）数据意识

认为数字人文就是做数据库，这是一种对二者都不了解的错误看法。实际上，文本与数据都是需要探讨的理论问题，并非是不证自明的、可以简单拿来研究和分析的“原材料”。正如并不存在原始的文本一样，也不存在所谓的原始数据。文本和数据都会经历文献整理和校勘的过程。而且，信息数据化而成为数据库的过程也许比文本化的过程还要更为复杂，它涉及所建立数据库的存储、访问、扩写、查询、维护等各个侧面。有些研究者认为文学作品就是文本，文本和数据是单独的、稳定的、自足的实体；不重视文本和数据记录数据的多重多样性，包括忽略文献学以及学术文献校勘能对文本物质形态历史所做出的贡献。这种对文本和数据体系的有限的、抽象的、甚至是非历史化的处理，忽视了它们自身的社会、经济、机构和技术结构。提倡数据文本文献校勘学的学者凯瑟琳·博德就反对这种对于学术研究材料的抽象和简约，认为“数字化的学术研究材料，就如文献目录一样，是具有阐释性性质的建构，它们依然在变化之中，不仅仅是内容上面，也包括形式上面，在这个过程中为文学史研究提出重要的实践和概念上的挑战”。（Katherine Bode, TheEquivalence of 'Close' and 'Distant' Reading; or, Toward aNew Object for Data-Rich Literary History, Modern Language Quarterly, Vol 78, 1March 2017）“基础设施研究”（InfrastructureStudies）正在成为一个人文社会科学的新研究领域和方向。“‘基础设施’，即既能让人类经验得以实现，又能对这种经验加以限制的社会及技术环境，如今和‘文化’概念本身一样有着大体相同的规模、复杂性和普遍文化影响。”（参见艾伦·刘：《通往思辨的基础设施研究》，济南：《山东社会科学》，2019年第6期）好的数字人文研究，包括数字人文基础理论研究，都需要具备对作为学术研究基础设施的数据和数据库的思辨性意识。

（六）反思性

任何学术研究都需要一定程度的反思性，这是体现该研究意义的时刻，即：它突出了、解决了、反映了什么问题；所采取的方法具有什么层面的有效性、有限性；该项研究在学术史上的位置和价值；等等。在“增强版”的数字人文研究中，尤其需要提倡学术研究的反思性。数字人文研究的优势显而易见，即它能大规模地、长时段地、以数字语料库为基础、采用量化或模型的方式来规划和探讨人文研究中的问题。与此同时，它在各个层面上也都容易受到来自传统人文学研究者的攻击：太实证主义、不够批判性细读、不能体现人文主义的价值、体现了新自由主义式的项目化学术生产方式；等等。事实上，任何一项研究都具有局限性，并不存在任何解决了所有问题的、具备了上帝视角的研究，并没有横空出世、无中生有的重大的科学研究理论发现。知识的生产更多地是一种渐进的、不断修正的进程。数字人文研究应该坦言本身进行研究的数据基础设施前提、采用的方法和步骤，以及这些所带来的局限性或者说是未来研究可以修正的空间。这才是一种诚实的学术研究品格，是学术研究者的基本素养，浮夸的、断言式的学风是需要避免的。

（七）开放性与协作性

人文研究者常常具有一种身份上的克里斯玛（Chrisma）。这常常体现在研究者似乎是灵光一现的、个人天才式的观点上，或者研究者常以国家民族精神、文化传统的代言人自居。按照澳大利亚学者伊安·亨特（Ian Hunter）的考察，无论是20世纪的新批评还是取代新批评的理论时代，在人文主义研究者那里都存在一个非常明显的教导的层面，即：（学生 / 读者）观察，（学生 / 读者）辨认、认同，（人文主义批评者）纠正、管教，（人文主义批评者）例证、例示。（参见Ian Hunter, TheHistory of Theory, Critical Inquiry, 33, Autumn 2006）这使得启蒙时代以来世俗现代性语境下的人文主义教育成为一个有关道德教育和自我成长的、享有特权的社会场域。好的数字人文研究应该是以其反思性、技能性和数据的公开性，敞开整个研究过程和步骤，展示可重复的人文研究成果，是一种远为民主化的知识劳动。同时，因其规模庞大，一项数字人文研究常常需要多个研究者合作完成，这就需要各个成员放弃自己的文化偏见和过重的主体性，而具备开放与协作的特性。这是新的学术人格与知识伦理产生的过程。事实上，19世纪晚期德国历史学家特奥尔多·蒙森及其领导的“大人文学科”，以及其同时代人称为“工业化”模式的学术研究，就已经体现了这种知识生产的模式。（参见Chad Wellmon：《忠实的工人和杰出的学者：大人文学科与知识伦理》，澳门：《澳门理工学报》，2018年第3期）

以上所罗列的七点，只是抛砖引玉，未必全都合宜。期待更多学者积极参与相关探讨与实践，共同审慎而乐观地推动健康的数字人文研究，同时也促进人文学术整体的良性发展。

数字人文及其史前史

〔美〕戴安德（撰）林太平（译）

人文学科学术研究越来越多地得到各种形式的计算分析的协助，包括自然语言处理和文本挖掘、网络映像及地理测绘等等。将人文学科与计算技术联合在一起的是它们在数据收集、处理及分析当中的基础。研究数据即是找出模式和反常事例：突出的内容也许揭示出关于历史关系或审美趋势的新事物，或确定了已被接受的知识。好的分析始于好的数据：语料库或数据库的分布决定了研究者能提出的问题的类型和收到的答案的质量。对于任何有基础统计学训练的人来说，这一说法都不意外，取样是统计学这一学科不可或缺的部分。这也包括社会科学，它长期以来充满了定量分析带来的自负和狂妄（马克思、弗洛伊德和韦伯这样偏重理论思考的社会科学学者，现在似乎被放在历史和文学课程中阅读了）。但是在人文学科，尤其是文学和历史领域，数据被赋予的新的重要性，这已经成为关系到本领域发展方向的持续且极为重要的对话的一部分。

踪迹：人文学科与定量

数据驱动的定量分析，是否从根本上不同于更古老的专注细致的阅读实践和运用证据对历史的重构？这一问题是开放性的，但回答起来风险颇高。没有正确或最终的答案——任何做出回答的人都在冒风险，可能忽略数据为人文学科知识生产带来的真正收获或真正威胁。一个人对这个问题的响应，或许可以代表他对正在国内外大学院系和研究中心普及的“数字人文”领域的态度。

随着数据以及从数据化到定量尺度分析的各种过程相应变得更为盛行，我们面临着追溯数据在本领域较早期的表现和使用的任务（当然，更普遍地考察数据在现代存在和知识的发展中的作用也很重要）。

数据分析和模式识别的早期形式是何时、何处、如何变成不可或缺的（或仅仅是可能的）人文学科研究工具的？对这一问题的回答揭示了被遗忘或被压制的历史插曲，前几代学者们曾经运用数据分析来阅读、思考并最终产出新的文化和历史知识形式。因此，一部数字人文的史前史会提供有助于我们探讨数字人文现状的重要语境。这不仅包括这一新领域无数引人注目之处，还包括其局限、挫折、失败，以及它们引起的抵抗和怀疑主义的形式。也许，这样的研究甚至能修正对本领域更广阔的自我认同，挑战长期以来关于人文学科和定量学科间分裂的假设。

“史前史”这个概念本身是有问题的。这个词让人注意到两个时代间的一道沟壑，似乎因为某些决定性事物或特点的缺乏，而需要由较后的时期时代颠倒地界定较早的时期。将两个时代绑在一起所暗示的不只是主题上的关联，还有关于连续性、甚至因果性的断言：因此史前史在扩展一个事件视界的同时，既肯定、又挑战了传统历史分期，并指向一个更早的起源。

谈到数字人文，这个领域尽管还相对处于初创期，却已经非常发散且众所周知地难以精确定义，要撰写一部本领域的连贯历史已相当困难——更别提发掘史前史了！如果仅仅关注相对固定的标志，如“数字人文”这个名称（或影响较小但更惹人激动的名称，如“远读”或“文化分析学”），单纯追踪它在学术话语中的出现，那不过是一种有限的话语分析形式。它并未告诉我们该领域中的学者借此实现其自我意识的那个过程。而过于关注词语的致命错误在于，历史的施动者往往缺乏术语去描述其存在状况（例如，只用想想氧气这个词，人类在识别它之前已经呼吸氧气很久了）。

要突破一个名称的认识论边界，我们就会遇到本体论问题。“数字人文”这个历史对象到底是什么？其“数字”是否只应用于数字计算机？如果这样，那么对其历史范围的追溯不会早过1950年代，如意大利耶稣会会士罗伯托·布萨（Roberto Busa）和计算机公司IBM合作，做出托马斯·阿奎那作品的词语索引，全都记录在打孔卡片上；或者1964年IBM公司组织的会议，讨论“人文学科计算”和文学数据处理，这一会议开启了一段富有创新的实验和对话的时期，包括1966年创建《计算机和人文学科》（Computersand the Humanities）杂志。要更充分地理解1970年代晚期和1980年代整合之前的数字人文，必须仰赖更多的研究。

这样的研究已表明，在人文学科变得“数字”之前几十年，学者们已然在用计算机做实验，探索与文本、作者身份及语言相关的问题。但这些例子远未穷尽可能的数字人文史前史。如果不是通过计算机的作用，而是通过方法和技术，采取更为全面的路径去界定数字人文，就能确认许多跨越计算年代和前一个世纪之间的关键性关联。实际上从19世纪早期以来，计数和计算能力的各种形式就已是人文知识生产的一部分——那段时期中，人文学科本身变为我们如今认可的模样。例证涵盖19世纪德国语文学家为古典希腊诗歌格律计数，以及物理学家托马斯·门登霍尔（Thomas Mendenhall）为确定某些莎士比亚作品作者身份所做的根据字母数量测量词语的实验。和早期计算时代的历史一样，这幅画面仍在填充之中。这些早期历史最有意思的事例里，有一个是1920年代定量分析和统计推理在清华大学人文学科的形成和制度化中所起的作用。

模式：观看的距离

这则插曲的发端，是1922年11月梁启超在东南大学做的一场讲演。讲演被抄录下来并发表在读者颇众的《晨报副刊》上，给我们一个令人着迷的——可惜也是被忽视的——关于一项发明的记录。在讲演中，梁启超介绍了他正在开发的一种新方法，命名为“统计历史学”。

如其名称所示，这种方法将统计学原则应用于历史数据，以便确认历史潮流和模式。梁启超的灵感来自中国历代人口的起落。对历史人口的兴趣并非新鲜事，数十年来已经引起对社会改革感兴趣的晚清知识分子的密切关注。人口确实位于对马尔萨斯和优生学等“生命权力”不断增长的兴趣的中心；1903年梁启超在他所办的《新民丛报》上发表过一篇关于人口的文章。在这篇较早的作品中，他考察近代历史，解释并批判清政府统计数字的不可靠和国家对人口的管理不善。但20年后，梁启超颠倒了统计学和史学的关系。此时的梁启超没有用历史去解释一个流行的统计数字（中国人口4亿）及其对中国国内及国际形势的涵义，而是寻求使统计学为写作历史服务。（这不代表从政治或当代的重要性撤退，而代表梁启超对学术严谨的兴趣，是一种转向，体现于他在其事业晚期产出的雄心勃勃的学术著作之中）。简单地说，新方法意在收集并评估即使是非常细致的学者也可能在阅读历史记叙时忽略的所有那些小的细节和事实。梁启超表述如下，令人难忘：

欲知历史真相，决不能单看台面上几个大人物几桩大事件便算完结；最要的是看出全个社会的活动变化。全个社会的活动变化，要集积起来比较一番才能看见。往往有很小的事，平常人绝不注意者，一旦把他同类全搜集起来，分别部居一研究，便可以发现出极新奇的现象而且发明出极有价值的原则……统计学的作用，是要“观其大较”。换句话说：是专要看各种事物的平均状况，拉匀了算总账。

一个世纪后回头看，梁启超持续以其兴趣之广博和智识之创新令我们惊诧。“统计历史学”是典型的现代时刻，反映出民国初期学者对以新的科学方法研究历史和文学的兴趣激增，其社会学倾向反映了当时特有的“对事实的激情”。（参见Tong Lam, A Passion for Facts: Social Surveys and theConstruction of the Chinese Nation-State, 1900-1949, Berkeley: Universityof California Press, 2011）但梁启超的方法作为后来年鉴学派和计量史学定量分析实验的先驱尤其突出。甚至可以将其看作数字人文的先行者，特别是对于弗朗哥·莫雷蒂的“远读”及其对“比文本小得多或大得多的单元：装置、主题、转义——或体裁和体系”的关注而言。（参见Franco Moretti, Conjectures onWorld Literature, in New Left Review,1: January-February, 2000）其实，三年前我和姜文涛在《山东社会科学》开创“数字人文”专栏时，便决定要采纳梁启超传神的“观其大较”的说法作为名称，向这一遥相对应的情形致敬。

但是，“统计历史学”开启了数字人文的史前史的同时，也让人对中国更古老的史学传统产生新的认识。具体而言，梁启超不仅将其发明归功于西方统计科学被引入中国。他将其定位为对现代西方科学和清代考证学学者的综合，如顾栋高及其权威研究《春秋大事表》，将《春秋》“折碎”为一系列表，将姓氏、事件和地点组织为条理分明的表册。顾栋高著作对梁启超的影响显示了确定“史前史”自身位置时的偶然性和棘手。即使将《春秋大事表》看作一种起点，我们也必须承认其主要技术、也就是“表”本身就有一段可以追溯至清代之前很早的史前史。“表”作为给信息分组并形成结构的方式，让信息可获取，让一个集当中的各点易于比较，实际类似于一种早期的数据库形式，或者数据框架。梁启超方法的新颖之处在于用数字象征性地处理数据（尽管用数字指代生活和事件这个做法本身就很古老，可追溯至有文字记载的历史之前很久。在英语中，digit一词既是“数字”也是“手指”，显示了后者作为编号索引的用途。人类——和文化——一直是数字的）。因此，历史统计学是一种原初的事件，但又建立在更早的实践和技术之上。

在1920年代中国的语境下，梁启超更感兴趣的是将来的学术研究，他对此满怀期待。比如，他预想了一个大规模的二十四史通表项目，准备以此补充中国的二十四史。尽管他在启动这个雄心勃勃的项目之前就去世了，但他的方法在同时代人中产生了广泛影响，在其后十年里启发了许多对历史人物地理分布的研究（此处我们可以提出另一个当代学术研究的对应事例，即哈佛大学的中国历代人物传记数据库项目，展示了非常丰富的中国文献中的群体传记信息）。梁启超的影响在古典学者卫聚贤（1899~1989）的著作中最为显着，后者直接将历史统计学发展成为大家都可以运用的通用方法。由于卫聚贤有兴趣超越历史社会学、进入文本分析领域，对于数字人文的史前史而言，他的事例尤其有趣。

工具：用算盘做历史研究

1920年代中期，梁启超和陈寅恪、王国维等其他声名卓著的史学家在清华大学国学院形成了一批核心导师，这个机构尽管短命、却生机勃勃，在中国现代学术知识发展中起到关键作用。这一时期和我们现在很相似，学术机构和学术性学科变动很大，但也提醒我们，最有意思的一些观点来自于调和传统和现代认识论及方法的严肃尝试。

回头看，尽管国学这个学科确实逐渐被看作保守的学术研究领域，部分原因在于其本土主义，以及反对（或者至少不同于）五四的知性主义的世界主义。但依然值得回想起，与国学相关的人当中，有许多明确力图以新的、现代的工具探索中国历史。这一项目最著名的倡导者是胡适，他同傅斯年和顾颉刚一道，呼吁“重新整理”传统史学（“整理国故”），使其更接近自然科学的原则。众所周知，胡适敦促学者们“大胆的假设，小心的求证”。然而，在这次学术方法科学化的行动中，惟有梁启超的历史方法应用了统计科学，将论证建立在对一般状况的计算基础上，而非建立于对逻辑不一致的辨别上。但在国学院内部，历史统计学相对边缘化，似乎并未教授给学生，梁启超的同事们也未在研究中采纳这个方法。

国学院里一名叫做卫聚贤的学生的研究是个例外。卫聚贤进入国学院时，教育背景有点不那么传统，转入历史之前，他曾在商业学校学过会计。后来他讲述过他如何频繁地被清华同窗揶揄，后者看到他手持一把算盘做研究，便嘲笑他是没受过教育的“商人”。但卫聚贤对会计和数据报表的兴趣让他尤其被统计学的实证主义吸引。他在清华期间努力工作，将梁启超的方法扩展为一套更完满的工具，发表了一系列文章解释如何用统计学研究过往，并展示了这些工作的结果。

要清楚了解卫聚贤的计划，只需浏览1929年出现的一篇关键文章，这是卫聚贤名为《应用统计的方法整理国学》的主要研究内容的缩略版。该文发表于《东方杂志》，这是当时传播最广的流行杂志之一，可见卫聚贤和杂志编辑展望着历史统计学会有广泛吸引力；这篇文章也有助于加强卫聚贤作为此方法首要鼓吹者的名声。在卫聚贤手里，“历史统计学”的应用延伸至“统计历史学”，其中，任何文本都能变成某种独立的词或字的个数，所有这些反过来又能被计数、分析。文章将统计方法的价值牢牢固定在图表等数据可视化的修辞和视觉吸引力中，有超过一打制作精细的漂亮饼图、图表和其他可视化图，用于比较《春秋》和《左传》的语言及内容。

几年后，卫聚贤在上海持志学院做了一系列讲演之后将文章扩展，于1934年出版了一本课本，就叫《历史统计学》，目标是更充分地让这种方法可操作。卫聚贤的著作清楚说明了“数据”的定义、如何从文本中获取数据、如何计算并视觉地表现，以便对史实做出推断，这本书是对历史统计学最全面的解释和演示。在此处，历史学家被重新想象为一位要勘测过往的社会科学家。卫聚贤综述了几种能得到数据的观察方法，例如直接测量或取样，他提出一种新的范畴，即“索隐”（indexing，也作“引得”），指的是直接从历史文献中提取数据的过程。卫聚贤依靠自己在清华的经验，详细描述了索隐的物质性及脑力劳动，诸如指导读者避免一边读文本一边做标记，因为他警告说大脑无法同时做这两件事；或者指导读者用钢笔或彩色铅笔标记地名、事件、人物或章节，之后收集到索隐卡上（他为索隐卡的格式提供了很方便的模板）。

这一讨论本身便是令人惊叹且原创的对数据化的叙述。而这个叙述又被纳入对统计方法更广的描述中，跨越三个分析阶段，让文本数据越来越抽象或经过处理：开始的时候用统计谱来处理文本，接着用数字表达数据，将其转为统计表，能从统计上分析，最后用一张统计图总结分析结果，让它们容易理解、视觉上吸引人。有了这一套方法，任何人都可以从事统计历史学。但尤为令人惊讶的是这一过程如何恰切地描述了现在的数字人文。中国任何关于这个主题的入门课程都能用这套异乎寻常的教科书作为第一周的教材。但是要解释、阐明这一史学方法则需要三分之一的学习时间。课本其余部分也值得在我们对史前史的批判中提及，因为这些部分是关于“中国统计学史”的。卫聚贤在这里显示出他敏锐意识到需要以本土主义词汇和民族史来为他的方法措辞。

另外，如导论所言：“中国人的保守观念传统思想非常的大，以为统计学乃是外来的，中国的国学用不着用外人的方法去研究。殊不知统计学是中国的土产，中国的古人曾屡为用；现在将中国土产的图谱学略为改造为统计学，使之研究中国的国学，当较前人的成绩为佳。故作此中国统计学史一文，以为呼醒！”这不仅仅是为了让他的方法在同侪中获得合法性而采用的讽刺性战略：卫聚贤很诚恳地试图证明许多统计实践在中国出现要早于欧洲。相比有倾向性地宣称统计学“起源于”中国，更有趣的是卫聚贤广泛探讨了中国历史上信息管理的诸多种类。其结果就是前所未有的中国数据实践研究的历史，从我们今天的有利眼光看来，它构成了数字人文史前史的史前史，是一种无穷尽的分层，挑战了认为当代数字分析是独特的或无前例的观点。

结论：一朵忽然之间绽开的花

卫聚贤和梁启超一样，对历史统计学发展的追求并未超越最初的投入。值得注意的不是这些学者尝试的结果，而是他们建议采用的那些方法。这两位学者共同留给我们一段引人入胜的插曲，它不仅给现代中国学术研究中的信息管理和数据分析的更具系统性的历史提出了可能性，还提供了关键的比较点，凭借它可以考察我们当下的时刻。历史统计学和数字人文都想要将实证或定量方法同一个传统上更具阐释性的知识领域相结合，在此范围内，我们已指出二者间一些较为显着的相似之处。

但差异也同样重要。尽管缺失的似乎只是计算机和现代人机界面促成的劳动自动化——制表、数据提取和数学分析，但这些技术也确实造成了分析规模及复杂性上的显着差异。历史统计学确实能够在一把算盘上操作。相比之下，有大量计算及反复的过程，例如恰当建立的主题建模技术（让人得以同时分析数百万文档，并根据共享主题或“话题”在数据集内识别分组），就反映出在数据中辨别模式的能力的重大飞跃。主题建模这种技术实际非常复杂，以至于形成某种黑箱，将分析处理与人类操作者隔离，让计算机及其算法成为主动的伙伴而非仅仅是被动的设备。这段时期另一个关键差异是态度上的。梁启超和卫聚贤都是实证主义者，将定量知识视作某种确定性而接受。换句话说，统计历史学代表了对系统、理性化、效率和进步的特别现代的热情。如果其倡导者发现它有缺陷，那只是因为当时的技术不足以匹配其远见。（这是真的，尽管这种方法和较早的学术研究模式有关——考虑到考证学者对实证知识和文本真实性的兴趣，很容易想象他们欣然接受梁启超和卫聚贤的实证主义态度。）数字人文学术研究的最佳案例对于其结果的局限性持开放和反省的态度，包括项目设计和统计显着性及置信度方面。

这些差异和相似能够共同阐明今日数字人文的历史独特性。某种程度上，这一插曲表明，数字人文并非全然是衍生物或完全是新近的舶来品。当然，我的意思也不是说数字人文在某种意义上起源于中国，我已经强调过，所有起源故事都是成问题的。相反，这个插曲是关涉全局的更大拼图中的一小片，这幅拼图由松散的片段组成，很大程度上并不连贯。但我们无需绘制历史统计学和数字人文之间的直接线性关系，亦能从中获取灵感。日本学者柄谷行人描绘夏目漱石的作品如“一朵未到季节便已开放的花，因此没有留下种子”（一朵忽然之间绽开的花），这说法令人难忘。对于1920年代的清华学者，我们也可以这么说。不过这朵花的季节已经到来。数字人文如今正在成长，让我们自许为这种早期探索和开放精神的继承人。