【原】芝加哥大学北京中心Science of Science现场精彩演讲，云集数十位业内大咖

学术头条 2020-11-27

展开全文

2019年6月10日至11日，由芝加哥大学北京中心和清华大学知识智能联合实验室共同主办的“Science of Science”主题学术交流活动在芝加哥大学北京中心拉开帷幕。本次活动邀请了Science of Science领域的顶尖学者和专家以及参与中国科技政策制定的政府决策制定者共同与会。

Science of Science是什么？

Science of Science：中文译为科学学，简写为SciSci，是研究科学和科学活动的发展规律及其社会功能的交叉学科。科学学从整体上考察科学的社会功能和地位，揭示并运用科学技术的发展规律，分析科学研究的体系结构，预测科学发展的趋势、生长点和突破口，制定科学发展的战略、策略和各项科学决策，为科学研究的组织管理提供最佳的理论和方法，促进科学技术同经济、社会协调发展。大数据的兴起和人工智能技术的快速发展为Science of Science创造了新的契机，也迎来了迅猛发展的机会。

开幕式

首先，活动的发起者之一芝加哥大学James A.Evans教授就Science of Science的发展做了简单的介绍，并阐述了该学科对人类社会及科学发展的重大意义，他希望这次会议能够在推动科技的进步，学科的发展中发挥重要的作用。

活动的另外一位发起者清华大学唐杰教授为与会的国内外专家学者介绍了Science of Science在中国的发展以及应用，并向大家展示在基于Science of Science的基础上中国用AI来进行基金的评审这一先进做法。

与会专家对这一做法表示了高度的赞扬和浓厚的兴趣。两位发起者共同邀请国内外专家分别展示他们在Science of Science这一领域的最新研究进展，并邀请所有与会者一起参与会议的讨论。

✎✎✎

接下来，受邀讲者依次介绍了他们在Science of Science这一领域的最新研究成果，以及相关的思考和反思。

北京师范大学吴金闪

北京师范大学的吴金闪教授做了题目为“Clustering Journals and Papers via Their Word2Vec and Node2Vec Representation”的报告。报告中，吴教授介绍了使用Word2Vec和Node2Vec来生成期刊的层次结构。这两种技术的主要假设和思想是，在两个词（结点）经常临近出现的时候，它们的意义（关系）和它们的向量表达是相近的。通过对比试验发现，通过这种技术实现的期刊分类相当合理，准确度也相当高。后续相关的研究正在进一步进行中。

印第安纳大学Santo Fortunato

印第安纳大学的Santo Fortunato教授作了题目为“Recency PredictsBrusts in the Evolution of Author Citation Networks”的报告。报告中，Santo Fortunato教授在学者引用网络的基础上就作者引文网络演化这一问题从学者层次和论文层次进行了分析。他首先揭示了论文引用的分布，然后探讨了已经积累的引用数和未来可能的引用数之间的关系，同时使用一个简单揭示了一个规律——一篇论文的被引用数量是否增加仅仅取决于它上一年所获得的引用量。作者并用该模型重现了过去40年中美国物理学会论文的引文网络中引文和爆发规模的变化。

芝加哥大学吴令飞

芝加哥大学博士后吴令飞作了题目为“Large Teams develop and small teams disrupt science and technology”的报告。报告中，吴令飞博士通过对论文（在1954年至2014年期间发表的42,045,077篇WoS文章）、专利（2002年至2014年期间分配的2,548,038件美国专利）和软件产品（2011年至2014年上传的26,900件Github资料库）中的团队工作进行了分析，经过分析发现，随着团队规模的增大，团队引用最新的论文越多，而引用历史较久的经典论文却比较少，由此得出结论：大团队偏向引用新文献，捕捉流行的研究。小团队在研究过程中，对过去的文献追溯更深，思考深入，从而提出新想法，实现“颠覆性”的创新。另外，小团队在创造新的方向，而大团队在发展这些方向，也就是说——小团队擅长提出问题，大团队擅长回答问题。小团队创造一个方向，等待有人发现、赏识他的想法与创新并把它发扬光大，但很可能在等待的过程中，这个团队就消失了，这也是现在创业不易的原因之一，而大团队收割目前已有的注意力流，沿着已经被验证过的好方向去挖掘。

伊利诺伊大学厄巴纳-香槟分校Lav R. Varshney

伊利诺伊大学厄巴纳-香槟分校Lav R. Varshney教授作了题目为“Of Miceand Men: Co-study Networks of Species in Biology Research”的报告。报告中，Lav R. Varshney教授认为在生物学的科学中，在分析生物研究网络将物种定义为结点而且共同学习行为导致了它们之间的连接。Lav R. Varshney教授评估了一系列的假设，使用各种网络科学分析，发现了建模生物和人的重要性。在全球范围内，本研究试图预测睡美人（sleeping beauty）物种，即该物种的研究尽管目前不流行，但是在未来会变得十分重要，并且试图去预测在生物钟哪些生物组合会在生物学中有影响力。最后，他还讨论了一个类似的问题，即使用脑区作为基本的分析单元在神经科学研究中进行分析。

印第安纳大学Stasa Milojevic

印第安纳大学的Stasa Milojevic副教授作了题目为“The ChangingLandscape of Knowledge Production”的报告。报告中，Stasa Milojevic副教授介绍了知识生产格局的急剧变化，论文数量呈现出指数级的增长，同时现在的知识生产格局由对生产力施加压力变为了通过“团队工作”和交叉学科。Stasa Milojevic副教授通过数据出版物中的数据来揭示了当代研究方法及对科学工作者劳动力的影响。研究显示，学术上的成功很大程度上取决于其研究的交叉性。分析显示，除了天文学外，学术成果越有交叉性，越有影响力。

俄亥俄州立大学Bruce A.Weinberg

俄亥俄州立大学的Bruce A.Weinberg教授作了题目为“UMETRICS：New Data and Findings”的报告。报告中，BruceA. Weinberg教授介绍了UMETRICS项目，该项目将研究项目将大学研究项目的输入和产出相连接。该研究中的一个重大贡献是将人视为研究机构的重要“产品”，并将数据提升到研究人员的职业生涯中，包括训练处理他们所接触到事务的实验室。并对研究经费的影响，科学的社会价值，科学家的职业生涯，技术的商业化，以及科学中的不足表达进行了研究。演讲中，他给大家展示了一些有趣的研究成果，例如：资金和产出基本上是线性的，而且没有发现这种线性关系是有边界的；一个团队的研究水平一直会比较平稳，更多的资金会使得团队的研究有更多的交叉，但是水平会不会有太大的变化……最后他指出大数据是解决和研究这些问题的未来。

纽约大学Raviv Murciano-Goroff

纽约大学的Raviv Murciano-Goroff助理教授作了题目为“Peopleor projects: The links between Research funding and disruptive innovation”的报告。报告中，Raviv Murciano-Goroff助理教授对资助机制在影响学术研究的速度和方向上的问题进行了深入地探讨。通过对2000年到2015年期间获得的专利的详细数据研究发现由联邦科学基金资助的创新比非联邦资助的创新更具有颠覆性和有更广泛的引用。在此发现的基础上，他们调查研究产出是否是因为他们被选择由联邦科学基金资助，还是因为联邦科学基金相对于非政府基金而言通常数额更大并提供更长时间的资助。通过对21个R1大学的实验室进行研究，对比发现资助机制中资助的规模和时间的长短只能够部分揭示创新的研究产出区别。受到资助者的特点，特别是之前的研究和取得专利权的经历是其创新产出变化的主要原因。同时，研究发现联邦科学基金在激励创新活动中与私人基金相比有着明显的区别。产出不同的原因主要是联邦科学基金被奖励给了不同组（distinct sets）的研究学者。

印第安纳大学John Bollen

印第安纳大学的John Bollen教授作了题目为“Rethinking Resource Alloction in Science”的报告。报告中，John Bollen教授首先说到现在科学中资源分配中的问题，即在科学活动中公共资源的分配主要依靠提交提案并通过审查的方式来获得，科学家们通过提案方案来竞争资源，这些提案需要同行专家来进行评估；由于越来越多的人参与到科研中，提案越来越多，需要的评审专家也越来越多，这导致科学家既需要大量的时间去撰写申请，也需要花大量的精力来对提案进行评估，这样的方式十分浪费时间和资源。John Bollen教授对能否重新设计了该资助系统，以达到在需求和供给研究资助中既能够降低成本又能够减少错配率的问题进行了深入地探讨。通过对资助人而不是资助项目以及群体的智慧的充分利用，John Bollen教授设计了一个迭代的资金分配系统来降低开销，并为科学家提供公平的科研资助。这个系统叫做自组织资助分配系统（简称为SOFA，这个和沙发的单词是一样的，感觉很形象，笔者注）。该系统具有很多的微调机制。报告中John Bollen教授向大家展示了系统，并演示其效果，还和大家进行了热烈的讨论。

Science policy panel discussion

Science policy panel discussion环节邀请了清华大学的李正风教授，科技部的胥和平研究院，国家自然科学基金委的郑永和研究员，以及中国科学技术发展战略研究院何光喜研究院和中外学者一起探讨了Science of Science在科技政策研究、科技政策的制定相关的问题，以及Scienceof Science如何发展为促进科学发展的一种工具。讨论中，中外学者活动热烈，纷纷就这些问题提出了自己的看法。

华盛顿大学Jevin West

华盛顿大学的Jevin West助理教授作了题目为“Viziometrics:Mapping the Visual Literature”的报告。报告中，Jevin West助理教授对如何绘制可视化的文献进行了深入的分析，并介绍了其发开的系统Viziometrics。他表示图是总结科学成果的主要方式，一张图胜过千言万语。文献挖掘中一篇文章的大部分的工作都是用文本、引文或元数据。他向大家介绍了一种他和他的同事开发的新的用于提取和映射这些视觉信息的新方法。一旦将其提取出来，就可以通过问该可视化的内容在信息中扮演什么样的角色和建立新的领域，并希望通过激发新的方法来充分利用这种新的沟通形式。他同时表示，视觉模式因期刊而异。

雪城大学Daniel Ernesto Acuna

雪城大学的Daniel Ernesto Acuna助理教授作了题目为“The effect ofBias and Variance on Scientific Peer Review”的报告。报告中，Daniel Ernesto Acuna助理教授对论文评审中的相关问题进行了深入地探讨，他认为同行评议是科学思想的基本把关者，但是一些研究已经表明，该过程是不完善的，会产生偏见（即偏差）和差异（即方差）。虽然这些因素显然是不可忽视的，但很少有人知道它们实际上是如何影响同行评审过程的。他认为偏见和差异对于同行评议的结果有可衡量的影响，人口结构、年资和其他个人因素都和偏见和差异有着很大的相关性。通过使用一个统计模型，利用统计共享的审查小组，对涉及超过24K的审稿人的超过8K+的手稿进行偏见和差异的估计。在本次报告中，Daniel Ernesto Acuna助理教授有关性别和资历对偏见和差异的初步结果，以及偏见和差异对决定时间、修订次数、评审团内部评审人员的意见分歧和评审质量的影响。针对其中出现的一些问题，Daniel Ernesto Acuna助理教授和现场学者做了深入的讨论，并提出了一些期刊和编辑可以实施的政策的建议来减少这些问题的影响。

艾克斯-马赛大学Sacha Raoult

艾克斯-马赛大学的Sacha Raoult助理教授作了题目为“PEERS-Rethinking Scholarship in the digital Era”的报告。报告中，SachaRaoult助理教授从西方学术史中的手稿入手，生动地介绍了古代知识传播的背景，十九世纪才正式逐渐形成，同时也使得同行审议这一机制诞生。从此之后经历过几次重大的变化，而到目前为止数字革命。在此背景下，他提出了同行评议中的“永久虚拟研讨会”，这是一种替代模式，可以充分利用新的物质条件产生知识。并向大家演示了他的系统：http://，引起了大家的强烈兴趣。

清华大学唐杰

清华大学的唐杰教授作了题目为“OAG:TowardsLinking Large-scale Heterogeneous Entity Graphs”的报告。报告中，唐杰教授全面详细的介绍了在连接微软学术数据和Aminer学术数据中遇到的各种巨大挑战，例如异构数据源、非结构化数据、期刊名称的演化、学者命名消歧等一系列重大任务。最终，通过构建大规模实体连接图来解决。在连接基于单词序列的实体时，提出了一种基于长短时记忆网络的方法来捕获依赖项；为了链接大型实体(例如，论文)，利用对位置敏感的哈希和卷积神经网络来实现可伸缩和精确的链接；为了将具有模糊性的实体(如作者)联系起来，提出了异构图注意网络来建模不同类型的实体。大家对此产生了浓厚的兴趣，并与唐老师进行了热烈的讨论。

微软Kuansan Wang

微软Kuansan Wang研究员作了题目为“Collaboration Discovery and Scientific Impact”的报告。报告中，Kuansan Wang研究员围绕合作发现和科学影响这一问题做了深入地分析。他认为从个人努力到合作产出的转变使科学受益，合作进行的科学工作比单独进行的研究越来越有影响力。然而，对于一个协作团队的多样性如何影响知识和创新的产生，我们还缺乏深入的了解。Kuansan Wang研究员就分析过去50年3290万篇论文的科学合作过程来了研究这一问题。他讲述了研究中，他们发现发表一份被引用次数最多的出版物的可能性随着合作团队的多样性而增加，即团队所代表的不同机构的数量。而且他们还发现了一个惊人的现象，一个更小、更多样化的团队比一个相对较大的团队更有可能产生高度创新的工作。在研究中，他们证明在不同的类别、研究领域、不同层次的机构和个人作者之间，协作多样性的协同作用是普遍的。同时，研究结果表明，合作的多样性与科学创新的产生有着强烈而积极的联系。最后，Kuansan Wang研究员和大家一起探讨了资助机构和授权机构用于资助研究项目的政策的潜在革命，以及广泛用于组织团队、组织和社会的原则相关的问题。

清华大学洪伟

清华大学洪伟副教授作了题目为“DigitalHumanities in Science and Technology Studies”的报告。报告中，洪伟副教授就上一届国防科技攻关项目之一的“数字人文学科”这一项目进行了介绍。她介绍到，中国古代很少很少研究科学技术。她们研究中试图通过提供有关中国古代发明和发现的详细数据来填补这一空白。其主要的研究数据来源是由李约瑟、他的同事和追随者编辑的《中国科学与科学》系列丛书。在这一系列的书中，记录了中国古代的科技史。此外，她们还尽力追溯了一项特殊发明/发现在中国和欧洲的起源和发展，为历史和比较理解提供线索。另一个重要的补充数据来源是由中国科学院(CAS)的一群中国学者撰写的一系列书籍——《中国科学与技术的历史》(Tbe Histor of Chinese Science and Tecbmology)。结合这两大资源，实现了为科学技术领域的学术研究人员开发一个完整的历史数据库的目标。

芝加哥大学James A. Evans

芝加哥大学的James A. Evans教授作了题目为“Social Limits to Scientific Understanding”的报告。报告中，James A. Evans教授就追踪科学家、工程师和公民之间的社会联系如何影响一个群体所能共同知道的极限这一问题进行了深入的探讨。该问题主要包括集中化网络如何降低生物医学中集体确定性的真实价值，大型团队如何缩小科学和技术的搜索空间，集群如何关联调查并限制未来理解的规模等方面的经验证明。接着，James A. Evans教授为了探索这最后一点，他们将科学发现和技术发明建模为包含问题、方法和物理实体等内容的复杂组合，这些内容连接了期刊、子领域和科学家和发明家从中得出的会议等上下文。在实验中，他们用一个高维随机块模型将文章和发明中的想法表示为科学技术内容和上下文的复杂组合，从而对文章和发明的正常增长进行建模。该模型预测了生物医学和物理领域95%以上的新专利和文章。在这个模型下，发表论文和专利的反比概率——不太可能跨越上下文的内容组合——预测了近50%的进化成功的可能性，这些可能性是通过超大的引用和重大奖项来衡量的。James A. Evans教授最后还和大家一起分享了这些发现对科学政策和实践的意义，并与大家一起探讨了相关研究的应用情况。

Artificial Intelligence Panel Discussion

在最后的Artificial Intelligence Panel Discussion环节，会议邀请了清华大学的李涓子教授、洪伟副教授、雪城大学的Daniel Ernesto Acuna助理教授和芝加哥大学的James A. Evans教授一起来就人工智能的未来发展、Science of Science的发展对人工智能发展的影响、人工智能时代个人的隐私、Science of Science如何指导未来人工智能的发展等一系列前沿问题进行了深入地探讨。期间，在场嘉宾纷纷向学者们提问，并发表自己的看法，现场气氛十分热烈。

至此，芝加哥大学北京中心和清华大学知识智能联合实验室共同主办的“Science of Science”主题学术交流活动圆满结束！