一个行业,超过半数从业者怀疑自己的研究没有任何价值,这是种什么体验? 前不久,来自华盛顿大学、纽约大学和约翰霍普金斯大学的组成的研究团队,就 NLP 领域的一些争议性问题征求了广大研究者的意见,包括研究者在大模型、AGI(通用人工智能)、语言理解、未来方向等多个方面的看法。 从调查结果来看,受访者对于这些问题的看法几乎都是对半开,这意味着自然语言理解(NLP)从业者的想法,与整个领域的现状之间,出现了巨大的分歧。 1、受访者情况概述一共有 480 位 NLP 从业者参与了调查。其中 327 人 (68%) 在过去三年中,至少与人合著发表过两篇 ACL 论文,这部分人是本次调查的目标人群。 根据 ACL Anthology 提供的数据来看,共有 6323 人满足条件,也就是说,约有 5% 的资深 NLP 从业者参与了调研。 在地区分布上,58% 来自美国,23% 来自欧洲,8%来自亚洲。其中,来自中国的 NLP 研究者占 3%。 在职业分布上,73% 受访者来自学术界,22% 受访者来自工业界,4% 从事非营利组织或政府工作。 其中,教师和高级管理人员占 41%,23% 是初级研究人员(包括博士后),33% 是博士生,2% 是硕士研究生或本科生。 另外,受访者的男女比例分别为 67% 和 25%。 2、NLP 领域现状这部分包括六个问题,受访者需要在“认同”、“稍微认同”、“不太认同”、“不认同”间表述看法。 (1)私营公司的影响力过大? 77% 受访者认同。 (2)工业界将会产出最被广泛引用的研究成果? 86%受访者认同未来十年被广泛引用的论文更有可能来自工业界而非学术界。 (3)NLP会在十年内进入寒冬? 30 % 的人认同或稍微认同,其中仅有 7% 的人选择“认同”。 尽管 30 %不是一个大数字,但这也反映了这一部分 NLP 研究者的一种信念,即 NLP 研究将在不久的将来发生重大变化(至少在谁提供资金以及提供多少资金方面)。 为什么他们的态度会相对悲观?背后有许多可能原因。 比如由于工业界影响力过大而导致的创新停滞,工业界将凭借少量资源充足的实验室来垄断行业,NLP 和其他 AI 子领域之间的界限将消失等等。 (4)NLP会在三十年内进入寒冬? 62% 的受访者相信寒冬将在未来 30 年内到来,长期来看,NLP 领域可能会退烧甚至变冷。 (5)大部分NLP领域发表的相关工作在科学价值上都值得怀疑(dubious)? 67% 的受访者认同,他们认为,大多数 NLP 工作在科学意义上是可疑的。 受访者对“可疑”的定义可能是多样的,包括根本不具有完整性的工作、所研究问题不恰当、研究结果无意义,或者研究发现并不重要、不可靠等等。 (6)作者匿名评审很重要? 63%的受访者认为评审期间作者的匿名是有价值的,可以保证限制预印本的传播。 3、规模化、归纳偏差和来自临近领域的启发(1)规模化可以解决几乎所有的关键问题? 仅有17%的受访者认同,如果用上21世纪内所有的计算资源和数据资源,用现有技术的规模化实施将足以实际解决任何重要的现实世界问题或NLP的应用。 (2)引入语言学结构是必要的? 50%的受访者认同以语言学理论为基础的语言结构的离散的通用表征(例如,涉及词义、句法或语义图)对于实际解决NLP中的一些重要的现实世界的问题或应用是必要的。 (3)专家的归纳偏见是必要的? 51%的受访者认同,专家设计的强归纳偏见(如通用语法、符号系统或认知启发的计算基元)对于实际解决NLP中一些重要的现实世界问题或应用是必要的。 (4) Ling/CogSci将对引用最多的模型作出贡献? 61%的受访者认同2030年被引用最多的五个系统中,很可能至少有一个会从过去50年的语言学或认知科学研究中的具体的、非微不足道的成果中获得明确的灵感。 4、AGI和主要风险(1)AGI是一个重要的关注点? 58%的受访者认同,了解人工通用智能(AGI)的潜在发展以及与之相关的利益/风险,应该是NLP研究人员的一个重要优先事项。 (2)最近的进展正在使我们走向AGI? 57%的受访者认同,大规模ML建模的最新发展(如语言建模和强化学习)是朝着AGI发展的重要步骤。 (2)人工智能可能很快导致革命性的社会变革? 73%的受访者认同,在本世纪,由人工智能/ML的进步引起的劳动自动化可能会导致经济重组和社会变革,其规模至少是工业革命时期的规模。 (4)人工智能的决策可能导致核弹级别的灾难? 36%受访者认同,人工智能或机器学习系统做出的决策可能会在本世纪造成至少与全面核战争一样严重的灾难。 5、语言理解(1)语言模型能理解(understand)语言? 51%的受访者认同。一些只对文本进行训练的生成模型,如果有足够的数据和计算资源,就可以在某种意义上理解自然语言 (2)多模态模型能理解语言? 67%的受访者认同。对于多模态生成模型而言,比如一个经过训练可以访问图像、传感器和驱动器actuator数据等的模型,只要有足够的数据和计算资源,就可以理解自然语言。 (3)纯文本评价可以衡量模型的语言理解能力? 36%的受访者认同。原则上,我们可以通过跟踪一个模型在纯文本分类或语言生成基准上的表现来评估其理解自然语言的程度。 6、NLP未来的研究方向(1)从业者太过于关注语言模型的规模? 72%受访者认同。目前,该领域过多地关注机器学习模型的大规模化。 (2)过于关注基准数据集? 88%的受访者认同目前NLP模型过多地关注在基准上优化性能。 (3)模型架构走错了方向? 37%受访者认同。过去5年发表的大部分关于模型架构的研究都走在了错误的道路上。 (4)语言生成走错了方向? 41%受访者认同,过去5年中发表的关于开放式语言生成任务的大部分研究都走在了错误的道路上。 (5)可解释模型的研究走错了方向? 50%的受访者认同,过去5年中发表的大多数关于建立可解释模型的研究都走在了错误的道路上。 (6)黑盒的可解释性走错了方向? 42%的受访者认同过去5年中发表的关于解释黑箱模型的大部分研究都走在了错误的道路上。 (7)我们应该做更多的工作来吸收跨学科的见解? 82%的受访者认同,与目前的状况相比,NLP研究人员应该更优先考虑纳入相关领域科学(如社会语言学、认知科学、人机交互)的见解和方法。 纵观人工智能的发展历史,曾遭遇过多次寒冬,但风水轮转,很可能随着一个契机的出现,就会呈现出技术大融合的场景。 自然语言理解之所以被称为人工智能皇冠上的明珠,有两个原因:有价值,有挑战。 有挑战的高端产物,发展之路势必漫长,慢慢来,或许会走得更快。 参考资料: https:///nlp-metasurvey-results.pdf 文 | 木子Yanni 嗨,这里是浅黑科技,在未来面前,我们都是孩子。 |
|