![]() 始于2009年《Science》上Lazer等学者发表的里程碑式论文《Computational Social Science》,计算社会科学正式确立为融合数据科学、计算科学与社会科学的交叉学科。这一领域以大数据为基底,通过机器学习、复杂系统建模等技术解码人类行为与社会运行规律。早期发展虽受限于数据标注成本与算法解释性难题,但以大语言模型(LLM)为主的新工具的浮现,正掀起社科研究范式的二次革命。 本公众号推出'计算社会科学大观'专题,旨在追踪这一融合数字孪生、具身智能与因果推断的前沿领域。通过跨学科视角,见证计算工具与人文思想的深度互构,共同推进数字时代的认知革命。 在本期中,我将回顾三篇经典的计算社会科学文献,与读者一同了解理论源流与最新进展。 Computational Social Science论文简介Computational Social Science 作者David Lazer, Alex Pentland, Lada Adamic, Sinan Aral, Albert-László Barabási, Devon Brewer, Nicholas Christakis, Noshir Contractor, James Fowler, Myron Gutmann, Tony Jebara, Gary King, Michael Macy, Deb Roy, Marshall Van Alstyne 引文@article{PMID:19197046, 正文我们生活在网络中。我们定期查看电子邮件,几乎可以在任何地方拨打移动电话,刷公交卡乘坐公共交通工具,并使用信用卡购物。我们在公共场所的活动可能被摄像机捕捉,我们的医疗记录则以数字文件形式存储。我们可能发布任何人都可以访问的博客文章,或通过在线社交网络维系友谊。这些交易中的每一笔都留下了数字痕迹,这些痕迹可以被汇编成个体和群体行为的全面图景,具有改变我们对生活、组织和社会理解的潜力。 收集和分析海量数据的能力已经改变了生物学和物理学等领域。但是,数据驱动的“计算社会科学”的兴起则缓慢得多。经济学、社会学和政治学领域的顶尖期刊几乎没有显示出该领域的迹象。但计算社会科学正在发生——在谷歌和雅虎等互联网公司,以及在美国国家安全局等政府机构中。计算社会科学可能成为私营公司和政府机构的专属领域。或者,可能会出现一批享有特权的学术研究人员,他们掌握着私人数据,并据此发表无法被评论或复制的论文。这两种情况都不利于积累、验证和传播知识的长远公共利益。 一个基于开放学术环境的计算社会科学,通过增进对个体和集体的理解,能为社会提供什么价值?阻止计算社会科学兴起的障碍有哪些? 迄今为止,关于人类互动关系的研究主要依赖于一次性的、自我报告的关系数据。新技术,如视频监控、电子邮件和“智能”名牌,提供了长时间内互动的即时图景,提供了关于关系结构和内容的信息。例如,可以通过电子邮件数据来研究群体互动,并且可以解决关于人类沟通时间动态的问题:工作群体是达到几乎不变的稳定状态,还是随着时间的推移而急剧变化?哪些互动模式能预测高生产力的群体和个人?我们接收到的新闻和内容的多样性是否能预测我们的影响力或绩效? 可以使用“社交测量仪”来随时间评估面对面的群体互动。可以佩戴这种电子设备来捕捉物理上的接近度、位置、移动以及个体行为和集体互动的其他方面。这些数据可能会引发一些有趣的问题,例如,关于组织内部接近度和沟通的模式,以及与高个人和群体绩效相关的流动模式。 我们还可以了解社会的“宏观”社交网络是什么样的,以及它是如何随时间演变的。电话公司拥有其客户多年来的通话模式记录,而谷歌和雅虎等电子商务门户网站则收集全球通信的即时消息数据。这些数据是否描绘了社会层面沟通模式的全貌?这些互动在哪些方面影响经济生产力或公共卫生?追踪人们的活动也变得越来越容易。移动电话使得大规模追踪人们随时间的活动和物理接近度成为可能。这些数据可能提供有用的流行病学见解:像流感这样由物理接近驱动的病原体,可能会如何在人群中传播? 互联网为理解人们在说什么以及他们如何连接提供了完全不同的渠道。例如,考虑刚刚过去的政治季节,追踪博客圈中关于政治和其他问题的论点、谣言或立场的传播,以及个人“上网冲浪”的行为,选民的关切在他们进行的搜索中变得可见。虚拟世界,其本质是捕捉个体行为的完整记录,为研究提供了充足的机会——进行那些在其他情况下不可能或不可接受的实验。同样,社交网络网站提供了一个独特的机会来理解个人在网络中的位置对其品味、情绪乃至健康等方方面面的影响,而自然语言处理则提供了更强的能力来组织和分析来自互联网和其他来源的大量文本。 简而言之,一门利用前所未有的广度、深度和规模收集和分析数据的能力的计算社会科学正在兴起。然而,巨大的障碍可能会限制其进展。现有的构思人类行为的方式是在无法获得描述整个人群个体每分钟互动和位置的 TB 级数据的情况下发展起来的。例如,现有的社会学网络理论,主要建立在一次性“快照”数据的基础上,通常只涉及几十人,它能告诉我们关于包含数百万人的位置、金融交易和通信的大规模纵向数据集的什么信息?这些关于人们如何互动的庞大、新兴的数据集无疑为集体人类行为提供了质的新视角,但我们当前的范式可能无法容纳。 推进计算社会科学也存在巨大的制度性障碍。在方法上,物理学和生物学的研究对象在观察和干预方面提出了不同的挑战。夸克和细胞既不介意我们发现它们的秘密,也不会在我们发现过程中改变它们的环境时提出抗议。至于基础设施,从社会科学到计算社会科学的跨越比从生物学到计算生物学的跨越更大,这主要是由于分布式监控、权限寻求和加密的要求。社会科学领域可用的资源较少,甚至社会科学系与工程或计算机科学系之间的物理(和行政)距离也往往比其他科学领域更大。 也许最棘手的挑战存在于数据方面,涉及到访问和隐私问题。这些数据中很多是专有的(例如,移动电话和金融交易信息)。AOL 公开发布其许多客户的“匿名化”搜索记录后引发的灾难,凸显了私营公司共享个人数据给个人和公司带来的潜在风险。需要建立稳健的产业界和学术界之间的合作与数据共享模式,以促进研究、保障消费者隐私并为公司提供责任保护。更普遍地说,妥善管理隐私问题至关重要。正如美国国家研究委员会最近关于地理信息系统数据的报告所强调的,即使是从经过仔细匿名化的数据中,也常常可能提取出个人资料。去年,美国国立卫生研究院和惠康信托基金会突然将一些遗传数据库从在线访问中移除。这些数据库看似经过匿名化处理,仅报告特定遗传标记的总频率。然而,研究揭示了基于数据库中从每个个体收集到的庞大数据量的统计能力,存在去匿名化的可能性。 由于单一涉及隐私泄露的重大事件就可能产生扼杀计算社会科学这一新兴领域的规章和法规,因此需要一个由程序、技术和规则组成的自我监管体系,以降低这种风险,同时保留研究潜力。作为这种自我监管体系的基石,美国的机构审查委员会(IRB)必须增加其技术知识,以理解侵入和个体伤害的可能性,因为新的可能性不符合他们当前关于伤害的范式。许多 IRB 可能没有足够的能力来评估复杂数据被去匿名化的可能性。此外,IRB 可能有必要监督安全、集中的数据基础设施的创建。目前,现有的数据集分散在许多团体中,他们的数据安全技能和理解水平参差不齐,协议也大相径庭。研究人员自身必须开发技术,在保护隐私的同时保留对研究至关重要的数据。反过来,这些系统可能对工业界管理客户隐私和数据安全证明是有用的。 最后,计算社会科学的兴起与其他新兴跨学科领域(例如,可持续性科学)一样,需要为培养新学者建立一种范式。终身教职委员会和编辑委员会需要理解并奖励跨学科发表的努力。最初,计算社会科学需要由社会科学家和计算机科学家组成的团队来完成。从长远来看,问题将是学术界应该培养计算社会科学家,还是培养具备计算素养的社会科学家和具备社会素养的计算机科学家组成的团队。认知科学的兴起为计算社会科学的发展提供了一个强有力的模型。认知科学涉及了从神经生物学到哲学再到计算机科学的多个领域。它吸引了大量资源投入以创建一个共同领域,并在上一代为公共利益创造了巨大进步。我们认为,计算社会科学具有类似的潜力,值得类似的投入。 ![]() Computational social science: Obstacles and opportunities论文简介Computational social science: Obstacles and opportunities - Data sharing, research ethics, and incentives must improve 作者David M. J. Lazer, Alex Pentland, Duncan J. Watts, Sinan Aral, Susan Athey, Noshir Contractor, Deen Freelon, Sandra Gonzalez-Bailon, Gary King, Helen Margetts, Alondra Nelson, Matthew J. Salganik, Markus Strohmaier, Alessandro Vespignani, Claudia Wagner 东北大学 引文
引言计算社会科学(CSS)领域在过去十年中声名鹊起,发表了数千篇论文,使用了观察性数据、实验设计和大规模模拟,这些在过去对研究人员来说是不可行或无法获得的。这些研究极大地增进了我们对重要现象的理解,从社会不平等到传染病的传播。学术界支持 CSS 的机构也大幅增长,全球范围内、跨学科、跨数据源的会议、研讨会和暑期学校的激增证明了这一点。但该领域在重要方面也存在不足。围绕该领域的许多制度结构——包括研究伦理、教学法和数据基础设施——仍处于萌芽状态。我们提出解决这些问题的机遇,特别是在改善 20 世纪大学的组织结构与该领域的智力需求之间的契合度方面。 我们将 CSS 定义为开发和应用计算方法来处理复杂的、通常是大规模的人类(有时是模拟的)行为数据。其知识先驱包括对空间数据、社交网络以及文本和图像的人工编码的研究。传统的定量社会科学侧重于案例行和变量列,通常假设观察值之间相互独立,而 CSS 则涵盖语言、位置和移动、网络、图像和视频,并应用统计模型捕捉数据内部的多种依赖关系。一个由社会科学家、计算机科学家、统计物理学家和其他人组成的松散联系的知识共同体已经在这个总括性术语下凝聚起来。 大学的错位总的来说,大多数大学的激励机制和结构与这种多学科研究的要求契合不佳。培训往往是孤立的。将计算培训直接整合到社会科学(例如,教社会科学家如何编程)和将社会科学整合到计算学科(例如,教计算机科学家研究设计)进展缓慢。合作通常不受鼓励,而且常常受到阻碍。计算研究人员和社会科学家往往分布在大学不同角落的不同单位,几乎没有机制将他们聚集在一起。分散式预算模型阻碍了跨单位合作,常常导致低效的重复建设。 诸如英国的研究卓越框架等研究评估活动,用于分配研究经费,通常侧重于学科内部,这意味着多学科研究可能得不到充分认可和奖励。同样,大学的晋升程序往往低估了多学科研究人员的价值。大学的计算研究基础设施往往无法完全支持大规模、敏感数据集的分析,这些分析需要安全性、大量研究人员的访问权限以及必要的计算能力。尽管这些问题在学术界(例如,在基因组数据方面)已得到部分解决,但相关经验尚未完全应用于 CSS 的实践中。 不充分的数据共享范式当前用于共享 CSS 中使用的大规模、敏感数据的范式情况好坏参半。基于与政府的伙伴关系取得了一些成功,特别是在经济学领域,从不平等研究到劳动力市场动态研究。一些新兴的、资源充足的行政数据研究设施模式正在成为分析微观层面数据同时保护隐私的平台。这些为与私营公司潜在合作提供了重要经验,包括开发方法以确保敏感数据的安全,同时又能供分析使用(例如,差分隐私方面的创新)。 对私营公司而言,价值主张有所不同,因此可以预见进展较少。政府机构拥有的数据是为公众托管的,而公司持有的数据通常被视为关键的专有资产。共享数据所固有的公共问责制可能被视为对政府机构相关利益相关者的积极因素,但对于私营公司的股东而言,通常远非如此。因此,学术界很少能获得私营公司的数据,即使可以获得,通常也是通过拼凑的方式授予的,其中一些数据可通过公共应用程序编程接口(API)获得,另一些数据只有通过与公司合作(通常是在公司内部实地工作)才能获得,还有一些数据则通过个人关系和一次性安排获得,通常受保密协议约束,并可能存在利益冲突。另一种选择是使用为市场研究收集的专有数据(例如,Comscore, Nielsen),其方法有时不透明,且定价结构对大多数研究人员来说 prohibitive。 我们认为,这种方法作为 CSS 的主要支柱已不再可接受,尽管鉴于此类数据的明显丰富性和研究界在其初期可获得的有限资源,这种方法可能看起来很实用。我们对数据的可用性和访问权限有两个广泛的担忧。 首先,许多公司一直在稳步削减可以从其平台提取的数据。这有时是出于好的原因——监管要求(例如,欧盟通用数据保护条例)、企业丑闻(剑桥分析与 Facebook)——然而,一个副作用往往是关闭了潜在有价值研究的途径。数据可用性易受私营行为者任意和不可预测变化的影响,这些行为者与科学家的合作完全是自愿的,这使得该系统本质上不可靠,并可能对其产生的科学产生偏见。 其次,由消费产品和平台生成的数据并不完全适合研究目的。在线平台和服务的用户可能无法代表一般人群,他们的行为可能以未知的方式存在偏见。由于这些平台从未被设计用来回答研究问题,最相关的数据可能没有被收集(例如,对信息传播感兴趣的研究人员计算转发次数,因为这是被记录下来的),或者可能以与系统其他元素混淆的方式被收集(例如,关于用户偏好的推断受到公司排名和推荐算法影响的混淆)。平台的设计、功能、数据记录和数据访问策略可能随时改变,因为平台所有者没有动力为了研究的利益而保持工具的一致性。 由于这些原因,源自此类“现成”数据的研究不可避免地会受到对其内部和外部效度的担忧,而基于平台的数据尤其可能因这些平台的改变而快速贬值。此外,由于隐私和知识产权问题,原始数据通常无法提供给研究界,或者将来可能变得不可用,从而妨碍了结果的可重复性和可复制性。 不充分的规则最后,未能为科学研究制定“通行规则”。尽管先前曾呼吁制定此类指南,并且尽管发生了严重失误损害了公众信任,但该领域未能充分阐明清晰的原则和机制,以在收集和分析有关人员的数字数据时最大限度地减少潜在危害。很少有大学提供技术、法律、法规或伦理指导来妥善控制和管理敏感数据。机构审查委员会通常仍未适应数字痕迹数据带来的独特伦理挑战,并且在应对方面缺乏一致性。美国最近对涉及人类受试者研究伦理的“共同规则”进行的修改,并未完全解决这些问题。 例如,在一个网络化的世界里,我们应如何处理这样一个事实:分享关于自己的信息本质上提供了关于与自己有联系的人的信号?围绕同意的挑战凸显了管理敏感数据安全以及重新构想机构审查流程和伦理规范的重要性;然而,很少有大学整合基础设施和监督流程来最大限度地降低安全漏洞的风险。 剑桥分析事件以及其他类似事件,引发了围绕数据主权的激烈辩论。隐私倡导者和公司之间已经划定了战线,前者寻求最大限度地减少所有个人数据的收集和分析,而后者则试图以向消费者提供价值为由为其收集策略辩护。公共辩论中常常缺失的是支持那些鼓励或强制要求合乎伦理地使用私有数据,以维护隐私、自主性、安全、人类尊严、正义和权力平衡等公共价值,从而实现重要公共目标的政策的声音——无论是预测疾病传播、揭示社会公平和准入问题,还是经济崩溃。同样常常缺失的是对学术界能够推动知识生产和维护隐私的基础设施的投资。 建议针对这些问题,我们提出五项建议。 加强合作尽管存在上述局限性,但私营公司收集的数据过于重要、通过任何其他方式收集成本过高、且过于普遍,以至于不能让公众无法访问,也不能用于公共资助的研究。研究界不应回避与行业的合作,而应围绕研究伦理、透明度、研究人员自主性和可复制性制定可执行的指南。我们预计未来几年将出现许多对相关利益相关者具有激励相容性的方法。 最广泛和最长期的模式是开放的、聚合的数据,例如人口普查数据。前述为共享政府数据而开发的模式,强调安全和隐私,为与企业数据合作提供了前景。联合国可持续发展目标呼吁建立公私数据源伙伴关系,以在全球范围内提供各种全新的、非常丰富的逐个邻里衡量指标,世界各地的国家统计局正在悄悄地致力于生产此类产品,但由于缺乏资金,进展缓慢。开发安全的行政数据中心,辅之以用于授予访问权限、监控输出以及强制遵守隐私和伦理规则的行政基础设施,为前进提供了一种模式。如上所述,这种模式已经在政府行政数据领域得到验证;在少数情况下,电信和银行公司也采用了这种模式。 类似的模型在学术研究中很少见——但正变得越来越普遍。荷兰的社会科学与经济创新开放数据基础设施就是一个例子。Facebook 已经迭代了多种与学者合作的模式。在其早期,它侧重于一次性的合作,很大程度上是非正式协商的。2016 年大选后,它启动了 Social Science One 项目,提供对新闻消费聚合数据的访问,尽管资源充足,但在提供数据方面面临挑战。2019 冠状病毒病(COVID-19)在创建研究人员与公司之间的伙伴关系以产生关于疾病轨迹的见解方面发挥了特殊作用。(COVID-19 在许多国家,包括美国,也揭示了关于该疾病的许多公共数据的分裂性和政治权变性。)Twitter 已为获批的研究人员提供了关于 COVID-19 的流式 API。同样,像 Cuebiq 这样的位置数据公司也提供了对匿名移动数据的访问。这些数据共享努力在疾病成为历史后将在多大程度上继续存在,如果继续存在,如何将它们与学术界关键的研究规范(如透明度、可重复性、可复制性和同意)稳健地结合起来,这些仍然是悬而未决的问题。 关于 Facebook 的选举例子凸显了研究人员与公司之间潜在的对抗性角色。CSS 领域(如下文所述)当前的一个核心问题是,特定的社会技术系统在社会中扮演着哪些积极和消极的角色。如果公司认为透明地研究和预测这些问题符合其长期利益,这种紧张关系可能会部分(但不是全部)得到解决。然而,即使在最乐观的情况下,研究可能产生的见解所带来的公共利益与公司利益之间也会存在脱节。 更普遍地说,学术界需要为专业实践提供精心制定的指南。公司可以对研究过程施加何种控制?公司对论文内容拥有否决权显然是不可接受的;但任何数据共享协议的现实是,存在协商确定的研究领域。提供数据以供复制的要求是什么?研究人员需要访问公司的内部数据管理和整理流程吗? 新的数据基础设施保护隐私的、共享的数据基础设施,旨在支持对具有社会重要性挑战的科学研究,可以从不同人群在其自然环境中收集具有科学动机的数字痕迹,并招募大规模的个体小组参与大型虚拟实验室中设计的实验。这些基础设施可以由公民贡献其数据和/或时间来支持公共利益,或换取明确的补偿。这些基础设施应使用最先进的安全技术,并根据数据的敏感性制定安全措施升级清单。这些努力需要在大学层面和跨大学层面进行。最后,这些基础设施应捕获并记录描述数据收集过程的元数据,并纳入健全的数据收集和使用伦理原则。GESIS 莱布尼茨社会科学研究所的安全数据中心是共享基础设施用于研究敏感数据的一个例子。此外,捕捉主要平台随时间变化的算法驱动行为非常重要,既因为算法行为日益重要,也因为算法变化在基于平台的数据收集中造成了巨大的干扰。关键在于法律框架应允许并强制要求对个体进行合乎伦理的数据访问和收集,以及对平台进行严格审计。 伦理、法律和社会影响我们需要发展与 21 世纪科学机遇和新兴风险相称的伦理框架。社会科学可以帮助我们理解社会的结构性不平等,CSS 需要打开那些做出如此多重要决策的数据驱动算法的黑箱,这些算法也可能嵌入偏见。人类基因组计划投入超过 3 亿美元作为其伦理、法律和社会影响(ELSI)计划的一部分,“以确保社会学会仅以有益的方式使用这些信息”。对于伦理研究,没有现成的解决方案。专业协会需要致力于制定新的伦理指南——互联网研究者协会制定的指南是解决该问题一部分的一个努力示例。公共资助者以及私人基金会需要进行大量投资,以制定明智的监管框架和研究人员伦理指导,并指导政府和组织在该领域的实践。 重组大学计算与越来越多的领域相邻——从天文学到人文学科。通常孤立的大学需要在组织上进行创新以反映这一点,发展连接不同研究人员的结构,在这些结构中,跨越孤岛的合作会得到专业上的奖励。成功的制度实践例子包括任命具有多单位隶属关系的教职员工(例如,跨计算机科学和社会科学学科),以及建立将不同领域的教职员工物理上聚集在一起的研究中心,还有分配内部资金以支持多学科合作。必须从根本上重新构思本科生和研究生课程的开发,以培养新一代科学家。大学内部必须做出普遍努力,以赋权并强制执行合乎伦理的研究实践——例如,中央协调的安全数据基础设施。 解决现实世界的问题上述建议将需要来自公共和私人来源的资源,这些资源按照当前社会科学资助标准来看是巨大的。为了证明这种超大规模投资的合理性,计算社会科学家必须证明其结果将不仅仅是发表主要引起其他研究人员兴趣的期刊文章。他们必须阐明学术界、工业界和政府合作以及专用科学基础设施的结合将如何为社会解决重要问题——拯救生命;改善国家安全;增强经济繁荣;培养包容性、多样性、公平性和可及性;支持民主;等等。CSS 在当前全球应对大流行病的应用象征着该领域更广泛的潜力。除了产生在学术界之外有意义的结果,追求这一目标也可能导致更具可复制性、累积性和连贯性的科学。
在计算社会科学中整合解释与预测论文简介Integrating explanation and prediction in computational social science 作者Jake M. Hofman, Duncan J. Watts, Susan Athey, Filiz Garip, Thomas L. Griffiths, Jon Kleinberg, Helen Margetts, Sendhil Mullainathan, Matthew J. Salganik, Simine Vazire, Alessandro Vespignani& Tal Yarkoni 微软研究院 引文@article{PMID:34194044, 引言计算社会科学不仅仅是大型数字数据存储库以及构建和分析它们所需的计算方法。它也代表了不同领域的融合,这些领域在思考和进行科学研究的方式上有所不同。本视角文章的目标是阐明这些方法之间的差异,并提出如何将它们有效地整合起来。为此,我们做出两点贡献。第一是提出了一个思考研究活动的框架,该框架沿两个维度展开——工作的解释性程度(侧重于识别和估计因果效应)以及对结果预测测试的考虑程度——并阐述了这两个优先事项如何能够互补而非相互竞争。我们的第二个贡献是倡导计算社会科学家更多地关注结合预测和解释,我们称之为整合建模,并概述一些实现这一目标的实用建议。 在过去的 15 年里,社会科学经历了一场仍在进行中的“计算革命”的开端。这场革命部分是由互联网的技术革命驱动的,互联网有效地数字化了数十亿人的社会、经济、政治和文化活动,并在此过程中产生了庞大的数字数据存储库。另一部分则是由计算机科学的方法和实践的涌入驱动的,这些方法和实践是处理新型数据(如搜索和社交媒体数据)所必需的,这些数据往往比传统的社会科学数据(例如,调查和实验室实验)更嘈杂、更非结构化、更少“设计”。这两个过程的一个明显且重要的结果是出现了一个新的领域,现在被称为计算社会科学,它在社会科学家和计算机科学家中都引起了相当大的兴趣。 然而,我们在本文中要论证的是,另一个结果——不那么明显但可能更重要——是社会科学家和计算机科学家的认识论价值观之间出现了紧张关系。一方面,社会科学家传统上优先考虑对个体和集体人类行为提出具有解释力的满意解释,通常援引源自实质性理论的因果机制。另一方面,计算机科学家传统上更关心开发准确的预测模型,无论这些模型是否对应于因果机制,甚至是否可解释。 反过来,这些不同的价值观导致社会科学家和计算机科学家倾向于使用彼此不同的方法,并援引不同的证据标准。例如,社会科学中的定量方法旨在识别因果关系或获得理论上有趣的参数的无偏估计,而机器学习方法通常旨在最小化在未见数据上的总误差。因此,社会科学家的标准做法是完全在“样本内”拟合他们的模型,理由是他们旨在解释社会过程而不是预测结果,而对于计算机科学家来说,在“留出”数据上进行评估被认为是强制性的。相反,计算机科学家通常允许模型复杂度增加,只要它能持续提高预测性能,而对于社会科学家来说,模型应基于实质性理论并因此受到其约束。 我们强调,这两种方法在其自身的范畴内都是站得住脚的,并且都产生了大量、富有成效的科学文献;然而,这两种方法也都受到了严厉的批评。一方面,理论驱动的实证社会科学被批评其研究结果未能重复、未能泛化、未能预测感兴趣的结果,以及未能为现实世界的问题提供解决方案。另一方面,复杂的预测模型也被批评未能泛化,以及不可解释和存在偏见。与此同时,关于挖掘足够大的数据集的能力将导致“理论的终结”的夸大其词的说法已被广泛抨击。我们如何才能继续受益于这两种经典传统中投入的数十年思考和方法论发展,同时又承认这些批评的合理性?相关地,社会科学家和计算机科学家如何才能建设性地调和他们各自不同的认识论价值观,以产生双方都能认同的新的方法和证据标准? 我们的立场是,每个传统在继续推进自身目标的同时,都可以从认真对待对方的目标中受益。具体来说,我们做出两个相关的贡献。首先,我们认为虽然预测和解释的目标在抽象层面看似不同,但在实践中很容易混淆,导致对任何特定方法能够实现什么目标产生困惑。我们引入了一个概念框架,用于根据对预测和解释的相对侧重程度对实证方法进行分类。除了阐明预测性建模和解释性建模之间的区别外,该框架还揭示了一类目前罕见的方法,即整合了这两者的方法。其次,我们提出一系列建议,希望能引导更多我们称之为整合建模的工作。此外,我们提倡更清晰地标示个体贡献的解释力和预测力,并主张在计算科学和社会科学之间标准化开放科学实践。总之,我们得出结论,虽然纯粹的解释性或预测性方法可以也确实有助于我们理解某一现象,但声称已经理解该现象应从两个方面进行评估。考虑解释性模型的预测能力有助于我们优先考虑研究哪些因果效应,量化它们实际解释了多少,并可能揭示我们对现象理解的局限性。反之,着眼于解释可以使我们将注意力集中在最重要的预测问题上,并鼓励我们构建更稳健的模型,在干预和变化下具有更好的泛化能力。因此,认真对待解释和预测很可能需要研究人员接受认识论上的谦逊,但将推动计算科学和社会科学交叉领域的工作取得进展。 预测与解释为了说明预测和解释的目标如何可能被混淆,考虑一种常见的做法,即使用零假设显著性检验(NHST)来拒绝某个理论驱动的效应不存在(即,恰好为零)的零假设,其置信度由固定的假阳性率控制,传统上设定为 5%。例如,一项研究可能试图拒绝求职者感知到的种族对其被录用前景没有影响的零假设,或者一个国家内部的民族或宗教分歧对内战的可能性没有影响的零假设。 正如许多先前作者指出的那样,NHST 在很多方面被广泛误用——效力不足的实验、多重比较、不恰当的停止规则等等——这些往往导致了惊人高比例的假阳性发现,并引发了广泛讨论的可重复性问题。从整合解释和预测的角度来看,NHST 还存在其他更根本的问题。NHST 使用了预测的语言;然而,所做的预测通常并非直接关于感兴趣的结果,甚至不是关于某个理论上有趣的效应的大小,而仅仅是假设的效应不为零。换句话说,NHST 的一个常见应用与其说是检验预测,不如说是论证一个理论与数据并不矛盾,然后将该理论用作解释工具。此外,虽然在某些情况下证明一个效应不太可能为零是有用的,但在人类和社会行为的复杂世界中,极有可能许多效应都不是零。因此,证明自己偏好的理论不能被数据排除,是对该理论极其薄弱的检验,因而其解释力远低于表面上看起来的程度。 相反,纯粹的预测性活动也可能冒险将预测与解释混淆。利用统计关联来预测结果的预测模型,有时具有看似令人印象深刻的准确性,可以带来一种理解了某个现象的感觉。但它们通常(有时是隐含地)依赖于一个假设,即这些预测的评估完全在预测变量与感兴趣结果之间关系稳定的情境下进行。结果是,在改变相关关联的干预措施下,模型性能可能会显著改变,或者可能导致带有偏见或误导性的解释。 事实上,“预测一个结果”可以指代许多不同的活动,对这些活动的准确性期望可能大相径庭。例如,发现某个特定地理区域内流感相关搜索查询量与两周后报告的美国疾病控制与预防中心(CDC)病例数据高度相关(r = 0.9)似乎令人印象深刻,直到发现仅通过使用前几周的病例数来预测未来几周的病例数,就可以直接从 CDC 数据本身获得相同的相关性。因此,一个特定的模型是否被认为有价值,不仅取决于其绝对性能,还取决于其与适当基线模型的比较。 此外,仅仅通过在评估过程中做出不同的选择,就可以使同一个模型在相同数据上估计出的表观预测准确性产生质的不同结论——从“极其准确”到“相对较差”。与 NHST 类比,预测性建模不仅可能在不产生解释时看似产生了它们;预测本身也可能比表面上看起来要弱得多。 整合建模的框架正如这些例子所示,解释和预测之间的关系在实践中往往是模糊的,并可能导致对任何特定研究活动满足哪些目标产生混淆。为了理清我们的思路,我们从抽象地讨论解释和预测转向更具体地讨论在计算科学和社会科学中常见的实证建模活动的类型。 我们强调,这里的重点是实证建模活动,而不是理论建模,如数学建模和基于智能体的建模。理论工作,包括建模以及实质性和定性理论,是实证工作的重要对应部分——例如,理论对于识别要测量或预测的适当构念,或提出要检验的假设是必要的。然而,在这里,我们希望专注于旨在利用经验数据来检验和验证模型的研究活动。为了进一步明确我们论证的范围,我们所说的“模型”主要是指在定量社会科学、数据科学和应用机器学习中广泛使用的统计和算法模型类型。然而,我们的框架也可以更广泛地应用于解释性和预测性分析(例如,机制模型、小样本案例研究或比较研究、使用预测市场的研究等等),只要它们以某种方式使用经验数据来验证解释或预测。 具体来说,我们提出了如表 1 示意图所示的概念框架。表格的两个维度分别代表对解释和预测的不同侧重程度,我们将空间划分为四个象限:描述性建模、解释性建模、预测性建模和整合建模。
表 1:一个用于组织实证建模的示意图,沿两个维度展开,代表对预测和解释的不同侧重程度。行(Rows)突显了我们关注的重点(或是可能影响目标结果的特定特征,或是结果本身),而列(Columns)则明确了我们建模的情境类型(一个'固定’的世界,其中没有变化或干预发生;或者一个特征或输入被主动操纵或因其他不受控制的力量而改变的世界)。 描述性建模(象限 1)指的是对任何科学努力都至关重要的活动:如何思考、定义、测量、收集和描述感兴趣量之间的关系。此象限中的活动包括传统统计学和调查研究,以及计算方法,如主题建模和网络中的社区发现。例如,关于公众舆论、经济状况和日常人类经验的许多已知信息都源于调查研究,无论是由联邦统计机构(如劳工统计局)还是研究组织(如皮尤研究中心)进行的。行政数据的统计分析也常常是描述性的。例如,最近的研究记录了不同种族和族裔群体在死亡率、财富差距和代际经济流动性方面的重要差异。在社会学、传播学和人类学中流行的定性和比较方法也属于这个象限。最后,迄今为止计算社会科学的大部分进展在于使用数字信号和平台来研究以前无法测量的概念。换句话说,描述性工作,无论是定性的还是定量的,本身就是有用且有趣的,并且也是在其他三个象限中进行的活动的基础。 超越描述,解释性建模(象限 2)指的是目标在于识别和估计因果效应,但不直接关注预测结果的活动。大多数传统的实证社会学、政治学、经济学和心理学都属于这个象限,它涵盖了广泛的方法,包括观测数据的统计建模、实验室实验、实地实验和定性方法。一些方法(例如,在随机或自然实验中,或非实验性识别策略,如工具变量和回归断点设计)通过设计来分离因果效应,而另一些方法(例如,回归建模、定性数据)则基于理论援引因果解释。无论如何,这个象限中的方法倾向于优先考虑简单性,考虑可能影响感兴趣结果的一个或仅少数几个特征。我们强调,这些方法对于理解个体因果效应、塑造理论模型甚至指导政策非常有用。例如,实地实验表明,具有典型“黑人”名字的求职者比那些具有“白人”名字的求职者更不可能获得面试机会,这揭示了结构性种族主义的存在,并为关于性别、种族和其他受保护属性歧视的公共辩论提供了信息。相关地,量化难以评估的效应,例如性别和种族多样性对警务的影响,可以推动具体的政策干预。尽管如此,对孤立研究效应的强调可能导致很少甚至完全不关注预测准确性。由于许多效应很小,并且简单的模型可能无法纳入与所研究结果相关的更广泛的特征集,这些方法可能遭受相对较差的预测性能。 与解释性建模相反,预测性建模(象限 3)指的是试图直接预测感兴趣的结果,但不明确关注识别因果效应的活动。这个象限中的“预测”可能关于也可能不关于实际的未来事件;然而,与象限 1 和 2 相比,它专门指“样本外”预测,意味着评估模型的数据(留出数据或测试数据)与估计模型的数据(训练数据)不同。这个象限中的活动包括时间序列建模、预测竞赛以及大部分监督式机器学习,范围从简单的线性回归到复杂的人工神经网络。通过在留出的测试集上评估性能,这些方法专注于产生能够很好地泛化到未来观测的预测。从政策角度来看,即使预测本质上不是因果性的,拥有对未来事件的高质量预测也是有帮助的。例如,机器学习在人类行为中的应用在在线广告和推荐系统中比比皆是,但也可以在其传播轨迹的早期检测社交媒体上潜在的病毒式内容。尽管这些算法不能识别导致人们点击或内容传播的原因,但它们仍然可以作为决策者的有用输入——例如,提醒人工审阅者检查潜在的大规模级联传播中是否存在有害的错误信息。话虽如此,通常存在一个隐含的假设,即用于训练和测试模型的数据来自相同的数据生成过程,类似于在一个静态(尽管可能嘈杂)的世界中进行预测。因此,虽然这些方法通常在固定的数据分布下效果很好,但它们可能无法泛化到特征或输入被主动操纵(如在对照实验或政策变化中)或由于其他不受控制的因素而改变的环境。 结合象限 2 的解释性属性和象限 3 的预测性属性,整合建模(象限 4)指的是试图根据因果关系预测尚未见过的结果的活动。更具体地说,象限 3 关注的是样本外但仍来自相同(统计)分布的数据,而这里的重点是“分布外”泛化到一个可能由于我们无法控制的某些因素而自然变化,或者由于某些有意的干预(如实验或政策变化)而变化的情况。这一类别包括我们以前观察过的设置的分布变化(即,将输入特征设置为特定值,而不仅仅是观察到它处于该值),以及更极端的情况,即全新的情况(即,将输入特征设置为我们从未见过的全新值)。因此,整合建模需要关注象限 2 关于估计因果效应而非仅仅关联效应的关切,同时考虑所有这些效应的影响以尽可能准确地预测结果(即象限 3)。理想情况下,这个象限的工作将产生关于(潜在)变化世界中未来结果的高质量预测。然而,强迫自己的解释进行预测可能会揭示它们解释的比人们期望的要少,从而激励并指导寻找更完整的解释。或者,这样的搜索可能会揭示预测准确性存在根本限制,这是由系统复杂性或内在随机性造成的,在这种情况下,结论可能是我们能解释的比我们期望的要少,即使在原则上也是如此。 除了在实践中阐明预测性和解释性研究活动之间的区别外,表 1 还说明了我们的第二个主要观点:虽然象限 1、2 和 3 都充斥着传统和计算社会科学研究,但象限 4——除了一些我们将在下面详细讨论的可能的例外——相对空缺。在某种程度上,象限 4 的稀疏性并不令人惊讶。仔细综合不同相关因素之间的因果关系以对未来结果做出高质量预测的模型,本质上比仅旨在孤立地追求解释力或预测力的模型更难制定和评估。尽管如此,我们也相信象限 4 的活动之所以罕见,是因为它们要求人们接受历史上被视为相互对立的认识论价值观;即解释性洞察必然以牺牲预测准确性为代价,反之亦然。如果这是真的,那么将它们视为互补的,即彼此可以相互加强,就将象限 4 重新定位为不是一个痛苦的权衡,而是一个进行新的、有影响力的研究的激动人心的机会。 需要明确的是,表 1 突出的机会并不是说研究人员,无论是计算领域的还是其他领域的,应该只关注或甚至主要关注象限 4。相反,在其他象限中存在大量有趣、高质量的社会科学研究,我们没有理由认为这种情况不应继续。事实上,即使一个人的目标是最终进入象限 4,可以说不花费大量时间在象限 1、2 和 3 中是不可能到达那里的。尽管如此,正如我们将在下一节中论证的那样,明确整合解释性和预测性思维的象限 4 研究活动,很可能在仅在象限 1-3 中能够实现的价值之上增加价值;因此,象限 4 值得比迄今为止得到的更多关注。 建议我们刚才强调的机会反过来激发了关于计算社会科学方法论创新的三个相关建议。首先,我们通过勾勒一些象限 4 研究的具体方法,使我们关于整合解释性建模和预测性建模的呼吁更加具体。其次,我们提倡一个明确的标签系统,用于更清晰地界定个体研究贡献的特征,识别其所属的象限以及其提供的粒度级别。第三,我们指出,在解释性建模社区内发展的开放科学实践可以被调整以惠及预测性建模社区,反之亦然。 整合建模方法我们的第一个建议是通过确定整合预测性建模和解释性建模的具体方法来鼓励更多在象限 4 的工作。在最高层面上,仅仅明确思考我们当前的模型处于哪个象限就可以激发整合性的研究设计。以理解信息如何在社交网络中传播为例,这个问题随着近期在线社交网络数据的可用性而受到了极大关注,这些数据使得能够高保真地追踪内容如何从一个人传播到下一个人成为可能。到目前为止,已经有数百甚至数千项研究探讨了这个问题。一些研究完全属于象限 1,作为纯粹的描述性研究,测量了大型且有代表性的在线信息传播级联的大小和结构。这些努力提供了关于内容如何传播的见解,其中一些与几十年前提出的观点一致,而另一些则对其提出了挑战。 其他研究则位于象限 2 和 3。例如,象限 2 中有旨在识别对信息传播具有因果效应的在线内容特征的工作。这里使用回归模型来估计少数几个高级别情感特征(例如,敬畏、愤怒、悲伤)影响内容传播多远的程度。这项工作提出了一个理论,即反映积极情绪的内容比消极内容传播得更远。相反,在象限 3 中有研究尽可能多地使用信息来被动地预测内容流行度。这里使用机器学习技术,着眼于最大化预测准确性,从而产生利用许多特征的统计模型,而不必关注这些关系中哪些是因果关系,哪些仅仅是相关关系。 到目前为止,关于这个问题几乎没有任何工作会落入象限 4;然而,这样的研究是很容易想象的。例如,人们可以尝试明确预测经过实验操纵的内容的传播,比如通过改变个体计划发布的内容以影响其情感效价,或者通过研究相同内容在被外生播种给不同个体时如何传播。这类实验将立即加强或挑战来自其他象限的结果,并且也将有助于制定具有预测准确性的因果解释。 将我们的注意力转向整合建模也可以激发评估我们在其他象限中发现的稳健性的新方法。具体来说,我们可以问,我们的估计和预测在象限 4 考虑的那类干预或变化下泛化得如何。在实践中,这意味着更多的跨领域或分布外模型测试:在一个领域做出的因果估计转移到另一个领域的效果如何,或者拟合到一个数据分布的预测模型泛化到另一个分布的效果如何?虽然通常会非正式地承认泛化性的局限性,但在已发表的研究中很少见到这类明确的测试。我们的许多模型很可能在这些任务上失败,但清楚地认识到并量化尚需取得的进展,比忽视开发能够成功完成这些任务的高质量、整合模型要好。 一个象限的方法也可以被用来惠及另一个象限的工作。在象限 2 中,最近有使用机器学习方法来改进现有解释性技术(如匹配和工具变量)所做的因果估计的例子,以及开发新技术,如自适应实验,以更有效地学习部署不同策略的效果,以及用于估计异质性处理效应的“因果树”模型。预测模型也在这里被用作评估解释模型“完整性”的基准。相反,在象限 3 中,有突出的例子,其中结构性因果模型被用来提高预测模型的泛化性。 我们也可以想象真正位于象限 4 的方法。例如,经济学和市场营销中的结构建模旨在“识别决定结果的机制,并被设计用来分析反事实政策,量化对特定结果的影响以及短期和长期效应”。一个例子包括使用从历史选择数据中得出的消费者偏好估计模型来分析拟议合并的影响。虽然很少发现直接评估这类模型预测能力的研究,因为它们通常涉及尚未实施的变化,但这样的扩展显然是可能的。例如,一项研究使用了密封投标拍卖的数据来估计投标者的价值,并对公开升序拍卖做出预测,然后将这些预测与那些拍卖的结果进行了比较。 我们认为特别有希望在象限 4 取得进展的另一种方法类似于“坐标上升”算法,即研究人员在预测性建模和解释性建模之间迭代交替。一项研究提供了这种方法的一个例子,结合了心理学和机器学习的方法。他们的起点是道德机器数据集,这是一个大规模实验,收集了来自世界各地参与者解决“电车难题”道德推理问题的数千万个判断。原始研究侧重于估计因果效应,操纵与可能被失控车辆撞到的不同群体成员身份相关的变量,并测量参与者对不同结果道德可接受性判断的变化。这项研究使用该数据集作为构建预测模型的基础,使用黑箱机器学习方法(人工神经网络)来预测人们的决策。这个预测模型被用来批评一个更传统的认知模型,并识别可能影响人们决策的潜在因果因素。然后,在一个新的实验轮次中评估了该认知模型,测试了其关于操纵那些因果因素后果的预测。
表 2:一个用于根据上述四个象限阐明研究贡献性质和粒度的标签方案。行(Rows)区分了每个象限中不同级别的粒度。我们所说的“方向性”,是指仅报告给定关联或效应的符号是正还是负的结果,而我们所说的“幅度和方向”,不仅指关系的符号,还指相关性或效应的数值大小。 清晰标注贡献我们的第二个建议看似简单:研究人员应该根据他们所做贡献的类型清晰地标注他们的研究活动。仅仅给已发表的研究添加标签听起来微不足道,但检查清单、徽章和其他标签方案已经是提高科学透明度、开放性和可重复性努力的核心组成部分。受这些努力的启发,我们认为鼓励研究人员清晰地识别其贡献的性质将对我们自己和他人都有澄清作用,并为此目的提出了表 2 中的标签方案。我们预计可能会提出许多其他的标签方案,每种方案都有其优缺点。然而,我们至少主张采用一个满足两个非常普遍属性的方案:首先,它应尽可能清晰地区分表 1 四个象限中的贡献;其次,在每个象限内,它应识别结果所展现的粒度级别(例如,高、中或低)。 首先关注表 2 的列,我们认识到象限的边界在现实中将是模糊的,并且个别论文有时会包含跨象限或粒度级别的贡献混合;然而,我们相信,揭示这些模糊性并使其明确化本身将是一个有用的实践。例如,如果不清楚某个特定的主张仅仅是描述性的(例如,两组 A 和 B 之间在结果变量 y 上存在差异)还是意在作为一个因果主张(例如,差异的存在是因为 A 和 B 在某个其他变量 x 上不同),那么要求我们证明我们的模型检验了一个因果主张以便将其置于象限 2,就应该促使我们反思我们的语言选择,并可能加以澄清。这样的澄清也将有助于避免因任何给定的研究方法根据研究者的目标可能落入多个象限而产生的混淆(见框 1 中的例子)。 接下来关注行,表 2 也旨在阐明,在保持在给定象限内的同时,可以进行揭示信息量差异巨大的活动。例如,在象限 1 中,指定个体层面属性与结果之间关联的描述比在人口平均数或“程式化事实”(即,科学著作摘要中常用的那种定性陈述,如“收入随教育程度提高”)层面上做同样事情的描述告诉我们更多关于一个现象的信息。在象限 2 中,估计一个效应的大小比仅确定其符号(正或负)更具信息量,而后者又比仅仅确定它不太可能为零更具信息量。同样,在一系列条件下做出的效应大小估计比仅为一组条件(例如,实验室实验选择的特定设置)做出的估计更具信息量。在象限 3 中,对结果的预测也可以在差异巨大的级别上进行测试,这取决于许多通常看似无害的测试细节。例如:(a)关于分布属性(例如,人口平均数)的预测不如对个体结果的预测信息量大;(b)关于一个观测值落入哪个“桶”(例如,高于或低于某个阈值,如大多数分类任务中)的预测比对特定结果值的预测(如回归中)告诉我们的信息少;(c)在事件发生前立即做出的事前预测不如提前很久做出的预测困难;以及(d)与差的或不合适的基线模型进行比较的预测——或者缺少基线的预测——不如与强基线进行比较的预测信息量大。同样的区别适用于象限 4,关键区别在于该象限中做出的主张是在数据生成过程发生某种变化的情况下进行评估的,无论是通过有意的实验还是由其他外部因素导致的变化。我们希望,要求研究人员明确说明某个特定主张提出的粒度级别,将导致对我们发现的更准确解释。 标准化开放科学实践我们的第三个建议是在从事预测性建模和解释性建模的人员之间标准化开放科学实践。在过去几年里,从事每种传统工作的科学家都推广了最佳实践,以促进透明、可重复和累积的科学;具体来说,解释性建模社区中的预注册,以及预测性建模社区中的共同任务框架。在这里,我们强调每个社区如何能够学习并利用在对方社区中发展的最佳实践。 预注册。预注册是指在实际进行任何给定的研究活动之前公开声明其计划如何完成的行为,其设计目标很简单:使读者和审稿人更容易区分计划内分析和计划外分析。这个程序可以帮助校准对报告发现可靠性的期望,进而减少在检验给定假设或预测的研究中不可靠、假阳性结果的发生率。具体来说,预注册降低了做出未披露的事后、数据依赖性决策(例如,运行许多可能的统计检验中的哪一个)的风险,这些决策可能导致不可重复的发现。 到目前为止,预注册几乎完全应用于我们称之为解释性建模(象限 2)的背景下,在这种背景下,小样本量(例如,在随机对照试验中)与数据分析和建模过程中未披露的灵活性相结合,导致了研究人员无法重复已发表结果的高发生率。然而,我们相信它对于预测性建模(象限 3)也可能是有价值的,尽管样本量大得多,研究人员在他们的分析选择中仍然有许多自由度。此外,预注册可以为用于训练和验证模型的数据(也称为后验预测)与用于测试模型的数据(预测)提供更清晰的界定。前者应用于开发模型,而后者应仅在模型的所有方面(包括其复杂度、超参数等)都已确定并准备好进行评估时使用一次。虽然这个区别在理论上很清晰,但在实践中,研究可能因混淆验证数据集与测试数据集,或在建模过程中多次使用测试集而受到影响。 在实践中,预注册存在一些局限性,降低了其价值并使预注册发现的解释复杂化。换句话说,它本身并不是万能药。尽管如此,在解释性和预测性建模活动中增加预注册的使用,很可能会减少不可靠结果的发生率,并提高科学工作流程的透明度和可重复性。加强预注册的是相关的实践,即注册报告,其中研究人员在进行研究之前提交他们预注册的研究和分析计划进行同行评审。虽然注册报告也有其实现上的挑战,但它们的采用将更加强调所提问题的质量和用于回答这些问题的方法,而不是答案本身。 共同任务框架。第二个可以在社区间标准化的实践是使用共同任务框架来集中给定领域内许多研究人员的集体努力。在这种范式中,就感兴趣的问题、与之相关的数据集以及为解决驱动性问题而使用该数据集进行的特定建模任务达成一致。然后,组织者向参与者提供部分数据,并声明评估研究成果的标准。参与的研究人员随后可以在开发模型和提交模型以供评估之间进行迭代。重要的是,这种评估是在一个单独的、隐藏的测试集上进行的,该测试集对组织者可见但对参与者不可见,这有助于防止对数据的特定子集过度拟合。 共同任务框架起源于预测性建模社区,在那里它经常被用于“预测竞赛”,例如著名的 Netflix Prize 挑战赛。然而,共同任务框架的好处不仅仅是提高预测性能,预测性和解释性建模社区都可以从更广泛地采用它中受益。在预测性建模方面,增加共同任务框架的使用将使得更容易比较和综合目前分散的研究工作。回顾前面讨论的预测信息如何传播的任务,目前有许多这样的努力,由于它们声称解决相同的问题,但各自使用不同的数据集、定义不同的建模任务或使用不同的指标来量化成功,因此非常难以比较。在共同任务框架下集中这些努力将迫使多样化的研究人员在决定真正感兴趣的问题是什么方面找到共同点。它还将标准化进展的评估,并使跨研究结合见解变得容易。 同样,共同任务框架对于解释性建模也可能是有用的。事实上,共同任务框架可以被认为是将预注册和注册报告从个体研究人员扩展到研究团队集合甚至整个领域的一种方式。一个例子是最近的“脆弱家庭挑战赛”,该挑战赛要求研究人员预测弱势儿童和家庭的不同生活结果。这种共同任务框架的使用不仅将努力集中在一个本身就很重要的预测问题上,而且还为社会科学界产生了关于不同生活结果可预测性的新颖问题。另一个例子是通用因果评估引擎,它通过共同任务框架促进了因果推断的集体进展。组织者创建合成数据(他们知道真实的因果效应),并将其提供给参与者,参与者可以使用他们偏好的方法提交这些效应的估计值。这个程序允许跨一系列研究人员和研究问题对不同的推断方法进行无偏评估。 展望本视角文章的目标是倡导通过整合预测性和解释性的科学探究方法来推进计算科学和社会科学的研究。我们为此提出的建议,已在上面详细讨论并在框 2 中总结,旨在澄清现有的工作风格,并为对整合建模感兴趣的研究人员提供有用且可操作的建议。同时,我们注意到我们在此提出的建议并非详尽无遗、全面或没有挑战:我们所描述的整合建模本身,既不是我们作为一个领域集体成功的必要条件,也不是充分条件。 值得注意的是,模型可解释性问题在上述框架和建议中缺失了。具体来说,在讨论解释性建模时,我们专注于因果效应的估计,而不管这些效应是否明确与理论驱动的、可解释为“因果过程的齿轮和轮子”的机制相关联。这并不是因为我们不认为发现和理解因果机制没有价值,而是因为我们认为可解释性在逻辑上独立于模型的因果和预测属性。也就是说,原则上,一个模型可以在干预或以前未见的情况下(分布外)准确预测结果,从而证明它捕捉到了相关的因果关系,但仍然抵制人类直觉(例如,1920 年代的量子力学)。相反,一个理论可以创造出理解了许多不同现象的主观体验,而既不具有预测准确性,也无法证明其因果性(例如,阴谋论)。 当然,可解释的解释可能因其他原因而受到重视。例如,可解释性允许科学家“心智模拟”他们的模型,从而为后续测试生成貌似合理的假设。显然,这种能力有助于理论发展,尤其是在数据稀疏或嘈杂时,这对于社会现象来说通常是如此。同样重要的是,可解释的模型通常更容易沟通和讨论(口头或书面形式),从而增加了其他人关注它们、使用它们或改进它们的可能性。换句话说,可解释性是一个完全合法的、希望解释具有的属性,并且在实用上可能非常有用。然而,我们认为,它应该因其自身的优点而受到重视,而不是因为它直接提高了模型的预测或因果属性。 我们也承认,采用我们所描述的整合建模实践存在成本。如前所述,根据预测准确性评估解释可能会揭示我们现有的理论解释的比我们希望的要少。同样,将贡献清晰地标记为描述性、解释性、预测性等,可能会使我们的发现显得不那么光彩,而不是用模糊或模棱两可的语言来描述它们。预注册需要个体研究人员付出额外的时间和精力,并且一些人批评它淡化了重要的探索性工作。增加注册报告的采用需要改变编辑和审稿流程,因此需要许多可能具有不同利益的个体进行协调。共同任务框架需要组织实例的人付出大量努力,以及一旦任务创建后领域内其他人的采纳。它也受到所谓的古德哈特定律的影响:“当一个度量标准成为目标时,它就不再是一个好的度量标准。” 话虽如此,我们认为,更广泛地采用这些实践将对计算社会科学领域产生净效益。探索性工作很重要,应该受到鼓励,但预注册至关重要,因为它有助于区分测试模型的行为和构建模型的过程。注册报告帮助我们专注于所进行探究的信息量,而不因这些测试的结果而偏见我们的注意力。而共同任务框架提供了一种联合子领域和学科以加速集体进步的方式。最重要的是,清晰地思考解释和预测的认识论价值观不仅有助于我们认识到它们各自的贡献,而且还揭示了在实证研究中整合它们的新方法。我们相信,这样做将有助于产生更可重复、更累积,并最终更有用的社会科学。 |
|