刘德寰等 | 意义互联网的兴起——ChatGPT开启互联网第三次革命

okxso 2023-05-30 发布于北京

展开全文

一、桌面互联网：解决“何时”的问题

互联网的第一次革命是桌面互联网的诞生和进化。桌面互联网可以被定义为一种通过个人计算机（例如台式机、笔记本电脑等）访问和使用互联网资源的方式。其为用户提供了丰富的信息和多样化的在线服务，包括电子邮件、网页浏览、文件传输、在线购物和社交媒体等。桌面互联网是在计算机发展的过程中应运而生的。

桌面互联网时代的到来极大地改变了人类对时间利用的认知与行为。在传统的时间观念中，由于地理空间和信息传播的局限性，人们在获取信息、与他人沟通以及协作过程中，往往受制于特定时间。然而，桌面互联网打破了这一界限，使得信息的传播变得高效、便捷和实时。在这一变革下，人们对时间的利用和认知发生了根本性的颠覆。桌面互联网在很大程度上解决了人们在何时接触和共享信息的问题。

一方面，桌面互联网打破线性时间的限制，使不同人群和事件的“同时性”成为可能。桌面互联网实现了每个终端同时完成任务以及时间互联，联网的计算机可以实现资源和成果的共享。互联网技术将同一时间的不同人群和事件镶嵌进网络，实现了远距离同时工作。另一方面，桌面互联网解放了个人时间。一些产品和服务已经让人们生活在真正的全天候、全球化的信息平台，让即时和随时成为可能。

二、移动互联网：解决“何地”的问题

智能手机等便携式电子设备的出现及风行，开启了互联网时代的新纪元——移动互联网。移动互联网的终端移动性、使用便利性和内容个性化、用户草根化的特点决定了其与传统的桌面互联网相比，有独特的发展模式。自此，人与手机开启了共同进化的进程。

从青铜器到羊皮纸，再到电报、电话、电视及互联网，媒介变迁的过程中，往往呈现出向Innis所说“偏倚空间的媒介”进化的趋势。在空间意义上，传播媒介最重要的改变在于克服空间距离对人们沟通的阻碍和限制，使人的移动更加迅速和自由。在桌面互联网时期，考虑到电脑等设备在物理层面的固定性，接收者必须处在与之相连接的物理空间中才能够进入存在的媒介空间。这一限制在移动互联网时期被逐步打破，“何地”的问题开始被解决。在移动互联网时代，地缘不再是划分手机人的标准。具体而言，首先，移动互联网拓宽了连接地点的多样性和便捷性。借助智能手机、平板电脑等便携式设备，用户可以在各种环境和场景下获取信息和进行沟通。其次，基于地理位置的服务得到了广泛应用。移动互联网使得地理位置信息可以实时获取和传播，为各种基于地理位置的应用提供了便利。再次，移动互联网时期人与手机等智能设备的融为一体共同进化，促使虚拟世界与现实世界的空间交融。

三、意义互联网：解决“何事”的问题

早在1960年，Licklider在其人机交互领域的奠基之作中，就对人机共生的未来提出了愿景和目标。他认为要实现人机共生，让机器帮助人类处理复杂问题，需要解决自然语言处理、在线学习和适应、人工智能和知识表示、协同工作等关键问题，以使计算机能更好地理解自然语言、人类的需求以及沟通方式，从而实现更好地相互协作。Licklider超前的思想成功预测了互联网发展的方向，即实现人和机器的共同生存与进化，让机器具备理解人类世界“意义”的能力。技术发展到今天，我们已经能够看到“意义互联网”的雏形，人类世界的一切知识将会被加速提炼，机器的学习能力也会进一步增强。

以ChatGPT、文心一言为代表的大型语言模型产品的推出引发了新一轮互联网狂欢，人们认为这是互联网新的“iPhone时刻”。实际上，作为意义互联网的开端，大型语言模型及其背后的基础模型已经超越了应用层，作为一种“基础设施”奠定了意义互联网的进化方向。ChatGPT等产品在短时间内取得巨大成功的原因，在于其产品内核反映了意义互联网时代用户的期待和需求，蕴含着意义互联网时代人机交互的底层逻辑——机器能“善解人意”，与人共同思考和创造，给予人类更多的启发“意义”。

从GPT-3.5（ChatGPT的基础模型之一）开始，大型语言模型在一致性问题解决方面取得了长足进步。有研究依据心智理论测试发现，GPT-3.5可解决90%的虚假信念任务，相当于7岁儿童的水平。而到了GPT-4，模型进化得更细致、更可信、更具有创造力。百度文心一言产品也宣称，其在文学创作、商业文案创作、数理逻辑推算等应用场景方面的能力已经可以对标ChatGPT，而其在中文理解、多模态生成方面甚至有独特优势。为何这类模型相比以往模型在准确度、叙述细节和上下文连贯性上具有更优的表现？笔者认为，主要是因为此类模型在以下三个方面取得了突破。

其一，这类模型加入了人类反馈强化学习（RLHF）的训练方法。这是一种结合了人类指导和自动强化学习算法的训练方法。在RLHF中，智能体通过与人类进行交互，学习如何改善其决策和行为。其关键步骤包括监督调优模型、模拟人类偏好、近端策略优化等。

其二，这类模型在设计中非常注重交互性。在历史模型的设计中，交互主要涉及将预先训练好的系统用于完成特定任务。大型语言模型中所提到的协同和交互是将交互视为一种学习方法，协同作为人工智能与人之间的分工，以实现更优秀的人机协同融合，从而深入洞察、创造新知识并成功完成任务。

其三，此类模型具备上下文学习（in-context learning）的能力。上下文学习的关键思想是从类比中学习。它是指大型语言模型能够通过对少数输入或示范标签进行调节并对新的输入进行预测，仅通过推理来执行一项新的任务。这种能力使得系统能够更准确地解释和预测新情况，从而在处理复杂任务时表现出更高的适应性和灵活性。

四、意义互联网的本质是智能时代的来临

正如Android和iOS之于移动互联网的意义，大型语言模型作为意义互联网的开端，绝不仅仅只是一种产品形态，而是可以被称为一种“操作系统”式的技术架构。在此基础上，我们可以畅想意义互联网未来发展的几大应用方向。

其一，在意义互联网时代，通用人工智能的实现将不再遥远。通用人工智能（AGI，Artificial General Intelligence）指具有广泛自我适应能力、在多个领域均能表现出人类水平智能的人工智能系统。大型语言模型为通用人工智能的实现奠定了很好的基础，它在阅读理解、命名实体识别、情感分析等任务上展现出了强大的性能，使得机器能够更好地理解和分析人类语言，从而提高人机交互的效率和体验，促进通用人工智能的发展。且大型语言模型在一个模型中可以完成多种任务，通过迁移学习，可以在不同任务间共享知识，从而减少训练成本并提高模型泛化能力。因此，在意义互联网时代，随着大型语言模型迭代速度加快，通用人工智能的实现也许并不遥远。

其二，意义互联网时代，人工智能生成内容（Artificial Intelligence Generated Content, AIGC）将不断有新突破。大型语言模型（如GPT系列）通过学习大量文本数据，能够生成更加流畅、准确和自然的文本，这些生成内容在质量上接近甚至有时难以区分于人类所写。此外，一些大型语言模型可以通过特定的参数调整，实现对生成内容的风格和主题的控制，这使得人工智能可以生成更具针对性和多样性的内容，实现根据需求的个性化定制。更重要的是，大型语言模型可以基于最新的数据和信息，实时生成和更新内容，使生成的内容保持较强的时效性。因此，在未来，机器生成内容也许真的能通过“图灵测试”，机器也将成为真正的“智能体”。

其三，意义互联网时代人机关系将发生更深层次的融合。在意义互联网时代，机器的主体性将再次成为伦理讨论的焦点。有研究指出，传统技术通常以机械方式扩展和增强人类的肢体和感官能力，而智能机器则模拟、延伸并拓展了人类大脑的功能，使其部分具备了人类智能特性。因此，人工智能在与人类互动过程中会展现出一种拟主体的特质，并且可以被看作是具有一定主动性的拟主体。当大型语言模型产品解决了人工智能的核心问题，即达到强人工智能状态，能够像人一样聪明或像人一样说话，接近“人工智能完备”的状态时，人与机器又将呈现何种共生关系？这将是意义互联网时代最大的谜。

其四，意义互联网时代人工智能的因果推断能力将进一步增强。ChatGPT和文心一言等产品刚推出时，数学推理能力一直是人们测试其是否智能的“试金石”，而初代大型语言模型产品在数学推理及因果推断方面的表现并不尽如人意。Pearl和Mackenzie认为，一旦机器具备因果推理模块的能力，智能体就有能力反思他们的错误，找到自身软件程序中的弱点，并能像一个道德实体那样思考和行动，自然地与人类交流它们自己的选择和意图。要让机器理解因果关系并进行因果推断，除了需要大量的数据，还需要基于现实世界的因果模型。在此基础上，即使机器没有干预现实世界和实验的能力，其也能从输入的数字、比特和像素中提取意义，能够理解“我本该采取不同的行为”这句话。当我们真正“教会”了机器进行因果推断，也许那时我们也就能够理解自己的大脑是如何运作的。“智能时代”也就真正降临了。

五、意义互联网时代不可忽视的问题

大型语言模型正在高速迭代发展，不断升级模型以实现不同功能，从史无前例的参数量，到实现图片识别，从拥有数学证明逻辑，再到可以连接网络，每一次进化的间隔时间越来越短。在这可能的过速迭代过程中，反思以大型语言模型为技术基础的意义互联网时代可能出现的问题，至关重要。

其一，主观性与偏见。由于大型语言模型在设计和训练过程中仍依靠的是人工参与，所以主观性的难题不可避免。一些主观性局限因素包括：生成演示数据的人工标注者的偏好、设计研究和编写标签说明的研究人员、由开发人员制作或由OpenAI客户提供的提示词的选择等。设计和进行标注的目的是让模型更拟合人类需求，然而需要注意的是，这些参与设计和标注工作的人群的判断并不能代表所有人类的想法。于是，在这一过程中就产生了偏见。

其二，隐私与版权。尽管相关公司声称非常重视用户的隐私和数据安全，但在大型语言模型训练的过程中，一定会收集与用户的使用相关的数据，以“改进服务，为用户提供更好的体验”。此外，公司也会与合作伙伴共享某些数据，尽管这些数据通常是去标识化的。实际上，OpenAI在其用户协议中赋予了使用者拒绝提供数据用以模型优化的权利，但这一协议过于隐蔽，且需要用户主动提交申请。这样的隐私协议对用户的隐私素养提出了较高的要求。总体而言，在大型语言模型使用和进化过程中，会导致数据挖掘、内容生成与生成内容使用三个阶段的版权风险。

其三，错误与缺乏数据来源。在中文的性能测评中，研究人员发现ChatGPT在中文的知识和常识回答上很容易出现错误，具体表现在混淆事实、编造信息等，且其能用较为流畅和可信的语言模板陈述错误事实，具有很强的迷惑性，尤其是对信息素养较低的群体危害较大。

其四，幽灵劳动引发的政治经济学批判。随着传统产业技术化程度逐渐加深、新兴产业自动化程度不断升级，幽灵工作有可能在未来成为一种十分普遍甚至是占据主导地位的工作形态，同时将数量庞大的“活”劳动者群体按需编织进“死”劳动的褶皱之中。此外，数字劳动研究领域常涉及到的“免费劳力”问题，在意义互联网时代将会变得更突出。作为使用者的我们，在使用人工智能技术时，为企业提供数据和其他信息，从而为其创造价值，但却未获得相应的报酬。在未来，这可能会导致更加不平等的劳动关系和更严重的剥削现象。

其五，新的“能力沟”出现。在意义互联网时代，有学者认为大型语言模型产品突破了在资源整合方面的能力限制，使得每个人至少从理论上具备高于社会平均水平的语义表达和资源调动能力，从而进行社会性内容的创作与传播对话。这背后是生成式人工智能在数字文明中弥合“能力沟”的表现。这也代表着数字化和智能化进一步推动了社会传播权力的下沉。然而，并非所有人都持有这种技术乐观主义观点。移动互联网时期，互联网的接入沟几乎被填平，但使用沟和效果沟却有逐渐拉大的趋势。在与大型语言模型产品进行对话的过程中，使用者能明显感受到，提出问题的能力极大程度上决定了最后输出答案的质量。历史告诉我们，当既往产业的信息技术化和全球化浪潮来临时，往往只有那些受过高等教育的人群才能更适应这种浪潮，并利用技术发展的东风实现自身价值。

六、结语

本文首先对桌面互联网和移动互联网的特征进行了概述，随后重点探讨了意义互联网的内涵及其发展趋势。在此基础上，我们还指出了意义互联网时代所面临的诸多挑战。互联网的三次革命分别解决了不同的本质问题，也为人类生活提供了不同的价值。回顾互联网三次革命历程，在新的时代风口展望新征程的壮丽图景和漫漫长路，能使我们以开阔的视角和眺望的眼光面对技术和环境的巨变，也能让我们以更开放的态度迎接接踵而来的挑战和机遇。从工业革命到互联网革命，每一次技术的变革都伴随着抵抗和忧虑，但过度的省思不会拖缓技术扩散的脚步，时代也终将属于那些主动与创新共舞的弄潮儿。未来已来，如何拥抱第三次互联网革命，实现技术与人的良性互动，这将是我们长期探索的重要课题。