超越强化学习：生命启发的AI

天承办公室 2023-10-27 发布于北京

展开全文

来源： CreateAMind

受生命启发的内感受性人工智能（万字长文）

摘要

构建自主的（即基于个人需求选择目标）和自适应的（即在不断变化的环境中生存）智能体一直是人工智能（al）的圣杯。一个活的有机体是这种代理的一个主要例子，提供了关于适应性自主的重要课程。在这里，我们把重点放在内感受上，这是一个监控体内环境使其保持在一定范围内的过程，它保证了生物体的生存。为了开发具有内视知觉的人工智能，我们需要从外部环境中分解代表内部环境的状态变量，并采用内部环境状态的受生命启发的数学特性。这篇论文提供了一个新的视角，通过将控制论的遗产与生命理论、强化学习和神经科学的最新进展相结合，内视知觉如何帮助构建自主和适应的主体。

关键词:内视知觉、人工智能、强化学习、主动推理、非平稳环境、基于情境的评估

“任何自主代理都需要能够解决两件事:下一步做什么和如何做”Spier & McFarland [1]

如果一个主体要在一个不断变化、不可预测的环境中长时间地自我维持，它就必须具有适应性

由普费菲和舍尔[2]

向生物学习以建立自主和适应性智能

虽然人工智能(AI)的重大进步已经在许多领域取得了显著的成就[3-5]，但构建自主和自适应的代理仍然需要进一步的关注。为了自治，代理必须根据他们当前的目标做出上下文敏感的决策。为了具有适应性，代理必须能够动态地重新配置它们的状态表示，以响应变化的环境。然而，传统的人工代理依靠预先设计的输入来建立新的目标[6]，并且通常不能适应环境变化[7]，突出了缺乏自主性和适应性。这些限制强调了将其他领域的新思想融入现有人工智能框架的必要性。

重要的是，生物似乎很容易完成这些任务，单细胞真核生物根据自己的需要和不同的条件修改目标的能力证明了这一点[8]。此外，动物表现出在恶劣环境(如雪、雨或烈日)中寻找安全场所以保持体温的天生驱动力。换句话说，活着的主体知道如何选择自己的目标，并根据不断变化的环境调整自己的政策，主要目标是维持体内平衡，这对有机体的生存至关重要(图1A)。

在这里，我们提出了一个新的框架，称为内感受性人工智能，赋予人工智能一个内部环境和内感受性输入，这提供了一个关键的功能，它保证了自主性和适应性。这个框架旨在建立一个可以维持内部(环境)状态的稳态(词汇表中的粗体字)的代理，以便生存，这需要监控其内部状态(即内部感受)的能力。在开发这个框架的过程中，我们采用了控制论中的原始概念，并将其与最近关于自组织的理论工作(如主动推理)相结合，以形式化人工智能体的内部状态[9，10]。我们认为这一框架有潜力解决强化学习(RL)研究中的紧迫问题，如内在奖励和非稳定环境，并提供计算工具来模拟内部感受和影响[11，12]以及情绪-认知交互[13，14]。

词汇表

主动推理:一个统一的贝叶斯力学框架，旨在通过形式化推理方面的感知和行动来解释感知行为。该框架强调内部生成模型的重要性，该模型通过信念更新和主动采样来最小化预测误差和惊奇。

异体稳态:机体预测未来需求并为之做准备的适应性过程，主动采取行动以维持稳定

边界:在系统理论中，边界是指将一个系统与另一个系统或其周围环境分开的界限。边界, 无论是物理的还是信息的，对于保持系统的完整性和功能性都是至关重要的。

依赖于环境的估价:对一个物体、决策或结果的感知价值根据环境或情况而变化的过程。这是一个关键的机制，允许代理灵活地改变它的目标并适应不稳定的环境。

控制论:研究调节系统结构的跨学科领域。它侧重于系统如何使用循环因果过程，如反馈 ,来调节自己和实现目标。它的范围包含一个宽广的光谱，跨越从控制理论，信息理论，和系统理论到复杂系统的研究，例如生物有机体和机器，并且进一步到自组织系统的研究。

本质变量:与有机体或系统的生存有内在联系的变量。为了保持系统的功能性和稳定性，基本变量必须保持在一定的范围内。罗斯·阿什比将生存定义为“当一系列行为在给定的限制之外没有本质的变化时。[9]

探索-开发困境:决策中的一个基本权衡，其中代理人必须在尝试新选项以获取新信息之间平衡两种对立的策略（探索）与选择最知名的选项从现有知识中获益（剥削）。

自由能原理:一种数学公式，表明所有适应性系统，包括活的有机体或大脑，都通过最小化自由能来抵抗无序的趋势，这是一种惊喜或负对数证据上限的信息论度量，也称为证据下限（ELBO）

体内平衡:一种自我调节的过程，通过这种过程，生物系统即使在不稳定的环境中也能保持其内部状态的稳定。

内感受:生物体（或其神经系统）感受、解释和整合体内信号的过程。它通过有意识和无意识的过程，以抽象的形式（即基本变量）提供关于内部状态的信息，例如饥饿、口渴、热和冷

生态位:生物体最适合的地方、位置或环境。它指的是有机体如何适应生态系统，如何与环境相互作用并适应环境，包括其物理、社会、文化和认知方面。

开放系统:与周围环境交换物质、能量或信息的系统，与封闭系统相反，封闭系统不交换物质、能量或信息。

稳定性-可塑性困境:在人工和生物学习系统中维持学习新信息（可塑性）和保留先前知识（稳定性）之间的平衡是一个基本挑战。过分强调稳定性会阻碍新的学习，而过度的可塑性则有抹去有价值的已有知识的风险。

人工智能体的内部状态

内感受指的是监控构成内部状态(或内部环境[15])的生理变量的生物过程，如葡萄糖水平或血压。最近的一篇论文将内视知觉定义为“内部世界的表征”，内视知觉“包括有机体感知、解释、整合和调节来自自身内部的信号的过程”[16]。在神经科学中，内视知觉已经与其他精神官能一起得到了积极的研究，如感觉[17-19]，情绪[20-22]，认知[23]，精神病理学[24]和意识[25]，突出了它在代理的各种精神功能中的关键作用(图1B)。

人工智能中的交互概念是新的，它的概念化和实现需要人工智能主体的内部世界或环境的正式定义。然而，在当前人工智能框架内定义内部状态本质上是具有挑战性的，因为大多数人工智能体没有物理边界[26]。为了应对这一挑战，我们应该考虑生物体内边界的功能作用。例如，细菌具有将外部状态和内部状态分开的物理边界(即细胞膜)。如果包含其内部状态的底物偏离正常范围超过临界水平，细菌就不能存活。换句话说，内部状态是一组定义代理生存的变量。在内部状态和生存之间建立正式联系的想法最初是由W. Ross Ashby提出的[9]。他将有机体描述为一个动力系统，并引入了本质变量的概念，本质变量是包含内部状态的状态变量的抽象形式[9，27]。动物的基本变量包括体温、葡萄糖水平和血压，动物必须将这些变量保持在一定范围内才能生存[28]。

通过将动力系统的概念与作为状态空间模型的智能体的最新公式[29-31]相联系，我们可以构建人工智能体中基本变量的形式框架”)和在图2中，内感受性AI框架的一种可能的实现是在马尔可夫决策过程(MDP)形式主义[35-37](框1)内将状态空间分解成内部和外部状态。与内感受性人工智能框架最相关的状态分解版本由巴尔托[34]提出，其中状态变量分为内部和外部变量，内部状态用于计算奖励信号[34](图1C)。根据这些想法，最近的方法，稳态RL，将奖励设置为来自内部状态的稳态状态[38，39]，并确定内部状态的稳态调节等同于RL模型中的奖励最大化[35]。此外，最近的其他研究开发了一个更通用的深度RL框架，该框架定义了一个生存概率——以内部状态为条件——并将生存概率设置为对代理的主要奖励[40]。在这种设置中，深度RL代理能够在具有多任务场景的复杂环境(例如，双资源问题[1])中仅通过部分观察生存[36]。这一系列工作为在RL框架中采用内部状态提供了概念和理论上的依据。他们还建议，内部-外部状态分解和源于内部状态的奖励的概念可以通过允许代理找到依赖于上下文的子目标来调节其内部状态，从而有助于使代理更加自治[41]。

内部感知人工智能框架的核心思想

内感受性人工智能框架的主要思想是将智能体视为一个动态开放的系统，其中智能体具有自己的内部状态动力学，与外部环境状态相互作用，同时将生命激发的(即仿生的)属性纳入模型。这可以总结如下(图2): 1)将环境状态分解成内部和外部状态，2)将奖励函数映射到内部环境状态的动态上，以及3)确保内部和外部环境状态仅通过边界状态相互作用。与传统的人工智能框架相比，内部状态的概念使得内部感知人工智能框架具有独特性。它还继承了控制论[9]和最近关于生命和自由能原理[46-48]的理论工作中的基本变量概念(方框2)。注意，此后我们将互换使用术语“基本变量”和“内部状态”,因为前者仅仅是表示内部状态变量的宏观成分的抽象形式。

“一般机器”的要义来自生物机体的生理和代谢概念[9]。他建议，在定义一般机器的核心概念时，需要排除物质性。排除物质性，他以数学形式定义了生存的概念，基于应该保持在一定范围内的基本变量。根据他对生存的定义，关键问题变成了一个系统(即通用机器)在面对外部扰动时如何保持其基本变量在一定范围内。

于是，生存就变成了“适应的问题”[27]；当外部扰动通过使系统的基本变量远离它们的设定点(或者更一般地说，吸引设定点)而影响系统时，系统需要采取适应性行动以使基本变量回到它们的设定点(即，动态平衡)。Maturana和Varela提出了自生的概念，将Ashby的观点扩展到生命现象[27]。他们的主要兴趣是生物自主性的出现。他们关注的不是生物体的稳定性，而是生物体对生存的主动控制，他们认为这是生物学的中心问题[27]。

最近，关于生命的研究已经扩展到天体生物学[48，52]，人工生命[46，53]和自由能原理[47]。具体来说，自由能原理(FEP)是一个雄心勃勃的生命和心灵的理论框架[54]，并以原则性的方式纳入了生命的上述属性。FEP认为，所有生物都必须最大限度地减少与外部环境交换的惊奇(也就是自我信息)。平均的惊喜是熵——无法直接评估的信息论量。因此，FEP认为，生物会将一个叫做变分自由能的上界最小化，从而抵制熵的增加。FEP将生物体形式化为随机动力系统，并从贝叶斯的角度提供了自组织的规范解释。这种观点基于稀疏耦合，通过维持边界(即马尔科夫毯)[10]将内部状态与外部状态分开。保持边界的自组织生物系统有效地最小化了它们的熵。虽然FEP有一个深刻的数学背景故事[10]，这超出了我们的范围，但它有一个简单的信息:“面向控制的预测性监管”。这可以从物理学的基本原理中推导出来，并应用于所有存活下来的生命系统(即通过避免与外部环境进行令人惊讶的交换来维持其马尔科夫毯的完整性)。FEP已被应用于自组织的许多方面

内感受性人工智能的第一个核心思想是将环境状态分解为内部和外部状态(图2B-❶).这种内外因式分解允许将药剂与其周围环境分开。例如，在活生物体中，给定边界状态(即，它们被分解)，其空间位置和身体葡萄糖水平有条件地彼此独立，并且这种独立性使得葡萄糖水平即使在变化的外部环境(例如，变化的位置)中也能够具有其自身的动态。

重要的是，内部状态相对于外部状态的独立动态性被认为对于具有“自己的生命”的主体的自主性是至关重要的[58，59]。然而，传统的RL框架没有明确地考虑代理的内部动态，导致代理和环境之间的纠缠。以前的研究试图通过在传统RL框架中实施内部环境来解决这个问题[36，38，60]。在这些努力的基础上，内感受性人工智能框架明确地考虑了内部状态，这为主体提供了它自己的内部“生命”,可以从它的外部(嵌入)环境中个性化出来。这种实现显然需要我们考虑边界状态的概念，我们将在下面更详细地讨论。

第二个核心思想是将奖励函数映射到代理的内部状态和它们的动态(图2B-❷).对于活的有机体来说，它们的主要目标是生存，而生存可以用基本变量来定义:正如Ross Ashby所说，生存“发生在一系列行为在给定的限制之外没有基本变量的时候”[9]。换句话说，生命体应该将必需变量保持在一定限度内(即体内平衡)才能生存[1，9]。类似地，我们可以完全基于内部状态而不是外部状态来定义奖励函数。在这个公式中，有界性和稳态设定点(图2B中的s*)成为规定内部状态动力学的关键数学属性(框3)。设定点具有重要的计算含义；例如，在稳态RL中，我们可以将奖励定义为到内部状态空间中的设定点的相对距离[38]。这使得仅基于状态的价值估计成为可能(即，依赖于状态的估价)，甚至对于以前从未经历过的状态[39]，促进了一般化。例如，极冷或极热的温度会被认为是令人厌恶的，即使他们以前没有经历过。

此外，我们可以考虑动态变化的设定点，这些设定点可用于实现变构，以更好地应对环境变化[33]。有界性还有一个重要的含义。设计一种制剂的限度与定义它的表型特征(即生存条件)和生态位有关[2]。换句话说，我们可以把一个设定点的概念推广到一组吸引人的特征表型状态的概念，内部动力学被限制在这些表型状态中。事实上，我们可以通过设计基本变量来任意定义生存，这对于构建符合人类价值观的人工智能非常重要[61]。

生存的对应物是耗散。换句话说，如果没有稳态控制，随着时间的推移，生物体的基本变量会持续偏离它们的设定点。例如，如果动物不吃食物，它们的葡萄糖水平会随着时间的推移自然衰减，导致死亡(即耗散)[62]。在基本变量的设计中加入依赖于时间的耗散性质，可以迫使主体与其环境相互作用，并在基本变量达到临界水平时优先控制基本变量。此外，我们可以使内部动力学更加复杂和混沌，例如，通过给内部状态配备混沌吸引子。这可能导致外部观察者无法从先前的模式中预测或推断出的紧急行为，成为自主代理的特征。

内感受性人工智能框架的第三个核心思想是内部和外部状态之间的稀疏交互(图2B-❸).受活生物体的启发，我们可以将人工智能体视为一个开放系统，通过边界状态将内部动态与外部状态稀疏耦合，边界状态是一个状态子集，可以调节外部状态对内部状态的影响(例如，感觉状态)或内部状态对外部状态的影响(例如，活动状态)[10]。换句话说，外部和内部状态的相互影响应该通过边界状态来调节，边界状态将内部状态与它们的周围环境隔离开来[47].这种隔离确保内部状态的动态保持相对稳定，而不管外部环境状态的变化(例如，当在具有不同气候和时区的多个国家旅行时，保持特有的代谢状态)。因此，内部状态能够提供相对稳定的值表示，该值表示能够自适应地响应变化的外部环境。例如，我们体内的葡萄糖水平并不取决于我们目前所处的位置，而是取决于我们释放到血液中的胰岛素。出于这个原因，感知内部状态，即内视知觉，是提供关于奖励的可靠信息的一种基本形式。因此，内部和外部状态之间的稀疏交互是构建能够在非稳定环境中生存的自适应代理的关键。

动态改变目标和环境的内感知人工智能

内感受性人工智能框架有可能给人工智能和神经科学研究带来好处。在本节中，我们首先讨论这个框架如何解决非平稳性问题[7]，非平稳性问题通常指非平稳目标(即奖励函数的变化)或非平稳外部环境(即状态转移概率的变化)(图3A)。这些挑战长期以来一直是RL领域的中心话题，因为非平稳性违反了传统方法的共同假设——回报函数和状态转移概率不随时间变化[66]。内感受性人工智能框架从活生物体中获得灵感来解决这些问题，认识到所有幸存的生物体都已经发展出适应非平稳环境的方法。

内感受性人工智能框架非常适合于创建能够根据其内部状态以灵活的方式调整其目标的主体[67]。通过将代理的目标映射到内部状态动态，内感受性人工代理可以在不同的上下文中灵活地调整他们的目标[68]。例如，在图3B所示的双资源网格世界场景中，饥饿但不口渴的动物更重视食物而不是水，而口渴但不饥饿的动物更重视水而不是食物——即，活生物体可以通过使用它们的内部状态作为上下文信号来改变它们的目标和价值[68]。在RL领域，这种依赖于上下文的评估已经在一般价值函数的标题下进行了研究，这通常依赖于状态和目标的联合价值函数，以具有基于目标的灵活状态值[69]。此外，分层RL方法[70]或目标条件RL [6]也被建议用于解决类似问题。然而，内感受性人工智能超越了这些RL方法。与传统的RL不同，在传统的RL中，典型地，设计者基于外部状态任意地建立奖励函数，而不考虑他们的状态动态，内感受性AI框架将奖励函数映射到内部状态动态(例如，吸引子或吸引集；见方框3) [71]。这允许奖励函数具有其内在的动力学，具有复杂的和突现的性质。此外，内部状态动态可以作为连续的和动态变化的上下文信号，这使得奖励和外部状态之间的非静态映射成为可能。例如，将食物或水的消费作为潜在奖励的连续决策可能取决于代理的内部状态动态。这引入了相对于外部状态的非平稳性。内部和外部之间的动态相互作用外部状态有助于更灵活地处理报酬的非平稳性。

内感受性人工智能框架也可以用来创造能够根据其内部状态的稳定性适应不稳定环境的智能体。在活生物体中，内部状态变量(例如体温或葡萄糖水平的变化)通常比外部环境(例如视觉输入的变化)具有更慢的时间尺度。此外，已知内部感受输入(即内部状态的观察)比外部感受输入更不容易受到噪声的影响，换句话说，内部感受信号具有更高的精度[65]。我们可以通过使内部状态比外部状态更稳定来给AI带来这些受生命启发的属性(图3C)。值得注意的是，最近的研究表明，身体通过神经内分泌和神经调节系统与大脑积极互动，以在具有挑战性的环境条件下(如压力)保持体内平衡[74-77]。这些相互作用涉及复杂的反馈机制，神经内分泌系统释放激素，调节广泛的大脑和身体功能。神经调质还可以增强或降低大脑中激素的作用，使有机体能够在外部变化的情况下保持内部环境的稳定。这些受生命启发的属性可以应用于机器人[78-82]或深度神经网络[83，84]，以设计能够响应环境变化同时保持内部稳定性的自适应机器人和人工智能系统。

重要的是，通过状态分解处理非平稳性问题使我们能够解决RL研究中众所周知的困境，即探索-开发和稳定性-可塑性困境。探索-开发困境是指当代理人坚持以前学习的最佳行动(即开发)或过多的探索使代理人难以开发已知的东西时，代理人失去了测试一组可能带来更好结果的新行动(即探索)的机会[42]。共同的解决RL研究中这一困境的方法是使用基于新奇的内在奖励——当代理在其环境中遇到新奇的情况时，代理会做更多的探索[85，86]。

然而，使用这种方法，当环境变得不稳定时，代理将继续探索，因为代理总是会遇到新的情况[87]。内感受性人工智能框架以不同的方式处理这个难题。核心思想来自动物行为文献，表明动物可以根据其内部需求选择探索或利用[88，89]。比如动物饿了更喜欢剥削，吃饱了更喜欢探索。换句话说，他们知道什么时候根据他们的内部状态自己去探索或利用。类似地，内感受性因素可以通过采取内部状态依赖策略来平衡探索和利用[78，81]。

此外，稳定性-可塑性困境一直是机器学习[90]和RL研究[7]中的一个重要问题，它是指在非平稳环境中，代理需要维持先验知识(即稳定性)，同时用新信息(即可塑性)更新它的情况。在传统的RL框架中，当环境中出现非平稳性时，代理在确定应该保留和更新哪些信息时面临挑战，因为没有关于环境稳定性的预定义假设。然而，在内感受性人工智能框架中，即使外部环境存在非平稳性，内部环境也保持稳定。这允许代理保存他们的内部环境的值表示，同时结合来自外部环境的新信息。因此，内感受性人工智能框架有效地解决了稳定性和可塑性的两难问题。

内感受性人工智能作为内感受性和情感的计算模型

内感受性人工智能框架也可以提供内感受性和情感的计算模型(图4A)。随着人工智能的显著进步，神经科学家已经开始使用人工智能作为代理的计算模型，这些代理执行类似于生物代理的任务，如人类和动物[91]。通过比较它们的行为和神经表达，我们可以研究使用传统神经科学方法通常难以研究的计算原理和神经机制。然而，为了实现这种方法，定义良好的人工智能任务是必要的，但与认知功能(如视觉和导航)相比，内部感觉和情感相关功能的任务相对较少。最近，研究人员提出稳态和异态可以为情感神经科学中的关键主题提供统一的定义[12]。此外，已经在机器人学的背景下研究了情绪[78，92，93]。基于这些先前的研究，我们提出了内感受性人工智能框架，其中人工智能的主要目标是维持其内部稳态，可以作为一种范式，用于研究情感神经科学中的关键主题。

先前的研究已经提出了使用RL和主动推理的内感受性计算模型[11]，这两种模型都可以在内感受性人工智能框架内实现。特别是，主动推理和内感受性人工智能分享许多相同的承诺(图。4B)。而内感受人工智能更关注与学习力的概念联系，主动推理强调与自组织行为相关的信念更新或推理过程，两者都依赖于内部状态或内感受模态提供的限制。主动推理提出的主要问题是，“生物体如何在与环境进行适应性交换的同时持续存在？”[54]这个问题的一些答案也有助于形成内感受性人工智能的基本概念。此外，主动推理对传统RL框架的独特贡献之一是用先验偏好取代奖励函数，这些偏好在内感受性AI框架中被实现为内部设定点(即，吸引内部状态集)[54]。主动推理还与传统的RL方法进行了比较[56，57，94，95]，表明其能够有效处理动态变化的目标[29]和不稳定的外部环境[96]。此外，主动推理已被应用于内感受，称为内感受主动推理[22，37]，它提供了内感受和影响的计算帐户[11，12，97]。通过将这些进展整合到主动推理中，内感受性人工智能框架可以提供内感受性和情感的正式模型，以在系统水平上研究它们的过程和神经表征。

最后，内部感知人工智能框架提供了一个独特的视角RL环境下多感觉整合的计算方面。内感受性人工智能框架中的代理固有地配备了多模态传感器，这些传感器在它们的时间尺度和精度方面有所不同——即内感受性和外感受性传感器。为了生存(或最大化回报)，代理必须有效地整合多感官输入，以提取对生存和回报至关重要的信息。此外，多种外部感受模式(如视觉和听觉)应符合当前内部环境对适应性功能的需求。以前的研究表明，这种一致性可以通过神经内分泌和神经调节系统在身体和大脑之间的复杂相互作用来实现[74-77]。此外，新出现的证据支持激素和神经调节剂在塑造大脑和神经网络动力学中发挥关键作用的观点[83，98，99]。跨多个内感受和外感受模式的多感觉整合的神经和计算机制是当前内感受和全球脑动力学研究的焦点[100，101]。在这种情况下，内感受性人工智能可以作为多感觉整合和全球大脑动力学的计算框架，以加强和补充这些研究工作。

结束语

从活生物体中汲取灵感，我们在这里引入了内感受性人工智能框架，通过将内部环境纳入传统人工智能框架来增强人工智能主体的自主性和适应性。所提出的系统使智能体能够监控其内部状态，整合多模态信息以维持内部稳态，并自适应地重新校准其目标和响应以应对环境变化。内感受性人工智能框架解决了RL中的非平稳性问题，并提供了模拟内感受性、情感以及情绪和认知之间相互作用的计算模型。重要的是，该框架有可能为人工智能和神经科学研究中众所周知的问题提供新的视角，包括探索-开发和稳定性-可塑性困境，以及多感觉整合和全球大脑动力学。根据克劳德·纳德，“内部环境的稳定是自由和独立生活的条件”，[102]辛格等人曾经指出，“所有的奖励都是内部的。”[103]考虑到这些，我们乐观地认为，我们从生活中得到启发的状态分解和将奖励映射到内部状态动态的想法可以帮助实现建立自主和适应性智能的目标。更重要的是，我们渴望我们的内感受性人工智能框架将加深我们对动物和人类智能的理解。

感谢

这项工作得到了IBS-R015-D1(基础科学研究所；致C.-W.W .和S.J.H .)，HI19C1328是韩国保健技术R&D项目通过韩国保健产业发展研究所(KHIDI)的拨款，由保健和福利部(致S.W.L .)资助

利益申报

作者声明没有利益冲突。

参考

1.Spier，e .和McFarland，D. (1997)自给自足和自主下的可能最优决策。J. Theor。生物。189 (3), 317-331.

2.普费菲和谢尔(2001)理解智力。马萨诸塞州剑桥市。

3.布朗等人(2020)的语言模型是少数射击学习者。神经Inf。过程。系统。

4.Mnih，v .等人(2015)通过深度强化学习实现人类水平的控制。自然518 (7540)，529-533。

5.Rombach，r .等人(2021)使用潜在扩散模型的高分辨率图像合成。arXiv [cs。简历】。

6.等(2020)具有内在动机的目标条件强化学习的自动代理:一个简短的调查。arXiv [cs。LG】。

7.Khetarpal，k .等人(2020)走向持续强化学习:回顾与展望。arXiv [cs。LG】。

8.Dexter，J.P .等人(2020)单细胞真核生物回避行为的复杂层次。Curr。生物。30 (11), 2205.

9.阿什比，W. (1960)大脑设计:适应性行为的起源。

10.Friston，k .等人(2022)自由能原理使更简单，但不太简单。arXiv。11.Petzschner，F.H .等人(2021)内感受和身体调节的计算模型。趋势神经科学。44

(1), 63-76.

12.席勒等人(2022)人类情感体。

13.Pessoa，L. (2019)情绪和认知的神经动力学:从轨迹到基础神经几何。神经网络120，158-166。

14.Pessoa，L. (2019)拥抱整合和复杂性:将情感置于大脑和行为科学中。认知与情绪33 (1)，55-60。

15.格罗斯，C.G. (1998)克劳德·纳德和内部环境的恒定性。《神经科学家》第4卷第5期，第380-385页。

16.新兴的内感受科学:感知、整合、解释和调节自我内部的信号。趋势神经科学。44 (1), 3-16.

17.克雷格，A.D.B. (2009)你现在感觉如何？前岛叶和人类意识。纳特。神经科学牧师。10 (1), 59-70.

18.Damasio，A. (2019)事物的奇怪顺序:生活、感觉和文化的形成，复古。

19.Damasio，a .和Carvalho，G.B. (2013)感觉的本质:进化和神经生物学起源。纳特。神经科学牧师。14 (2), 143-152.

20.Barrett，L.F. (2017)建构情绪理论:对内感知和范畴化的主动推理解释。社会认知和情感神经科学12 (1)，1-23。

21.Critchley，H.D .和Garfinkel，S.N. (2017)内视知觉和情绪。当代心理学观点17，7-14。

22.Seth，A.K .和Friston，K.J. (2016)主动内感受推理和情绪大脑。菲洛斯。反式。R. Soc。隆德。生物b。Sci。371 (1708).

23.Tsakiris，m .和Critchley，H. (2016)超越体内平衡的内观:情感、认知和心理健康。菲洛斯。反式。R. Soc。隆德。生物b。Sci。371 (1708).

24.Paulus，M.P .等人(2019)内感受性精神病理学的主动推理方法。安奴。临床牧师。心理学。15, 97-122.

25.Seth，A.K .和Tsakiris，M. (2018)成为野兽机器:自我的身体基础。认知科学趋势22 (11)，969-981。

26.Bellemare，M.G .等人(2013)《街机学习环境:总代理的评估平台》。j .阿提夫。智能。第47号决议，第253-279号。

27.Froese，t .和Stewart (2010)阿什比之后的生活:超稳定性和生物自主的自生基础。控制论与人类认知17 (4)，7-49。

28.Goldstein，D.S .和Kopin，I.J. (2017)稳态系统、生物控制学和自主神经科学。Auton。神经科学。208, 15-28.

29.Friston，k .和Ao，P. (2012)自由能、价值和吸引子。计算机。数学。医学方法。2012, 937860.

30.McFarland d .和Spier e .(1997)自给自足机器人的基本周期、效用和机会主义。罗布。Auton。系统。20 (2), 179-190.

31.Sibly，R.M. (1974)动机的状态空间方法。动机控制系统分析。

32.Saper，C.B .等人(2002)喂养的需要:饮食的体内平衡和享乐控制。神经元36 (2)，199-211。

33.Schulkin，j .和Sterling，P. (2019)异常停滞:一种以大脑为中心的预测性生理调节模式。神经科学趋势42 (10)，740-752。

34.巴尔托(2013)内在动机和强化学习。自然和人工系统中的内在动机学习，17-47。

35.Keramati，m .和Gutkin，B. (2011)一种用于稳态调节的强化学习理论。神经Inf。过程。系统。24.

36.Yoshida，N. (2017年)《一般环境的稳态剂》。j .阿提夫。英特尔将军。8 (1), 1-22.

37.艾伦等人(2022)，《身体的眼睛:内感受性推理的计算解剖学》。PLoS Comput。生物。18 (9)，e1010490。

38.Keramati，m .和Gutkin，B. (2014)整合奖励收集和生理稳定性的稳态强化学习。eLife 3，e04811。

39.Hulme，O.J .等人(2019)稳态控制的神经计算理论。《物理生活》第31期，214-232页。

40.Yoshida，N. (2016)关于生存的奖励函数。arXiv [cs。AI】。

41.Avila-Garcia，o .和Canamero，l,《基于动机的行动选择架构中感知的激素调节》,欲望和喜欢主体研讨会会议录，2005年。

42.萨顿和巴尔托(2018)《强化学习:导论》。

43.Padakandla，s .等人(2020)非平稳环境的强化学习算法。应用智能50 (11)，3590-3606。

44.Choi，S.P.M .等人(2001)非平稳序列决策的隐模式马尔可夫决策过程。《序列学习:范例、算法和应用》(孙和贾尔斯编著)，第264- 287页。

45.多希-维勒兹，f .和Konidaris，G. (2016)隐藏参数马尔可夫决策过程:一种发现潜在任务参数化的半参数回归方法。IJCAI 2016，1432-1440。

46.Aguilar，w .等人(2014)人工生命的过去、现在和未来。机器人和人工智能前沿1。

47.我们所知的生活。J. R. Soc。接口10 (86)，20130475。

48.Walker，S.I. (2017)《生命的起源:物理学的一个问题，关键问题综述》。代表程序。物理80 (9)，092601。

49.薛定谔，E. (1951)什么是生命？活细胞的物理方面，大学出版社。

50.Capra，f .和Luisi，P.L. (2014年)《生命的系统观:统一的愿景》，剑桥大学出版社。

51.冯·贝塔朗菲(1950)物理学和生物学中的开放系统理论。科学111 (2872)，23-29。

52.Walker，S.I .等(2017)从物质到生命:信息和因果关系，剑桥大学出版社。

53.Gershenson，c .等人(2018)《自组织和人工生命:一个综述》。arXiv [nlin。AO】。

54.帕尔等人(2022)《主动推理:思想、大脑和行为中的自由能原理》，麻省理工学院出版社。

55.Da Costa，l .等人(2020)动态规划和主动推理之间的关系:离散的有限范围案例。arXiv [cs。AI】。

56.Imohiosen，a .等人，主动推理还是控制作为推理？统一的观点，积极的推理，斯普林格国际出版，2020年，第12-19页。

57.Tschantz，a .等人(2020)通过主动推理进行强化学习。arXiv [cs。LG】。

58.Barnett，l .和Seth，A.K. (2021)动力独立性:在复杂动力系统中发现涌现的宏观过程。arXiv [nlin。AO】。

59.等人(2008)自治:一个信息理论的观点。生物系统91 (2)，331-345。

60.巴尔托，A.G. (2012)自然和人工系统中的内在动机学习。17-47.

61.等人(2022)以人为中心的机制设计与民主的人工智能。纳特·胡姆·贝哈夫6 (10)，1398- 1407年。

62.英格兰，J. (2020)每个生命都在燃烧:热力学如何解释生物的起源，英国阿歇特。

63.Heylighen，F. (2022)目标导向的意义和起源:动力系统的观点。生物。j .林。社会主义者隆德。

64.Kirchhoff，m .等人(2018)生命的马尔可夫毯:自主性、主动推理和自由能原理。J.

R.社会主义者接口15 (138)。

65.Allen，m .和Tsakiris，M. (2018)身体作为第一优先:内感受预测加工和第一性。内在性思维:来自体内平衡。

66.强化学习中的平稳性检验和变点检测。arXiv[统计。ML】。

67.Juechems，k .和Summerfield，C. (2019)价值从何而来？认知科学趋势23 (10)，836-850。

68.Lewis，m .和Cañ amero，L. (2016)享乐质量还是奖励？自主机器人动态平衡和决策的基本快乐研究。适应。贝哈夫。24 (5), 267-291.

69.Schaul等人,《通用价值函数近似值》,载于:Bach，f .和Blei，d .(编辑。)第32届机器学习国际会议论文集，PMLR，2015年，第1312-1320页。

70.Kulkarni，T.D .等人(2016)分层深度强化学习:整合时间抽象和内在动机。神经Inf。过程。系统。29.

71.Laurenç on，h .等人(2021)自我调节自主代理的连续稳态强化学习。arXiv [cs。AI】。

72.Péré，a .等人(2018)用于内在动机目标探索的目标空间的无监督学习。arXiv [cs。LG】。

73.陈，b .等，面向非平稳环境的情境感知安全强化学习，2021年IEEE机器人与自动化国际会议，，2021，第10689-10695页。

74.Chrousos，G.P. (2009)压力和压力系统紊乱。纳特。内分泌激素。5 (7), 374-381.

75.Clasadonte，j .和Prevot，V. (2017)特殊关系:神经内分泌下丘脑中的胶质细胞-神经元相互作用。纳特。内分泌激素。14 (1), 25-44.

76.Haddad，S.A .和Marder，E. (2018)电路对温度扰动的鲁棒性通过神经调节器来改变。神经元100 (3)，609-623.e3

77.Kim，S.M .等人(2017)果蝇先天行为的神经调节。安奴。神经科学牧师。40, 327-348.

78.Chiba，A.A .和Krichmar，J.L. (2020)神经生物学启发的自我监测系统。继续。IEEE协会。Electr。电子。英语。108 (7), 976-986.

79.邹，x .等(2020)不确定领域中的神经调节注意和目标驱动知觉。神经网络。125, 56-69.

80.邢，j .等，通过强化学习的神经调节适应环境变化，从动物到动画16，施普林格国际出版公司，2022年，第115-126页。

81.Lones，j .等人(2018)自主机器人适应的激素驱动的表观遗传机制。IEEE认知和发展系统汇刊10 (2)，445-454。

82.徐庆洲和王(2011)人工内分泌系统的新进展。浙江大学学报自然科学版C 12 (3)，171-183。

83.Mei，j .等人(2022)通过神经调节系统的多尺度原理为深度神经网络提供信息。趋势神经科学。45 (3), 237-250.

84.基于扩散的神经调制可以消除简单神经网络中的灾难性遗忘。PLoS One 12 (11)，e0187736。

85.尽管如此，s .和Precup，D. (2012)好奇心驱动的强化学习的信息论方法。生物科学理论。131 (3), 139-148.

86.Pathak，d .等人,《通过自我监督预测进行好奇心驱动的探索》,载于:Precup，d .和Teh，Y.W .)第34届机器学习国际会议论文集，PMLR，2017年，第2778-2787页。

87.Berseth，g .等人(2019) SMiRL:不稳定环境下的惊喜最小化强化学习。arXiv [cs。LG】。

88.科拉莱斯-卡瓦亚尔，V.M .等人(2016)内部状态通过调节勘探-开采权衡来驱动营养体内平衡。Elife 5。

89.Katz，k .和Naug，D. (2015)能量状态调节蜜蜂的探索-利用权衡。贝哈夫。Ecol。26 (4), 1045-1050.

90.Carpenter，G.A .和Grossberg，S. (1987)自组织神经模式识别机器的大规模并行架构。计算机视觉、图形和图像处理37 (1)，54-115页。

91.Kriegeskorte，n .和Douglas，P.K. (2018)认知计算神经科学。自然神经科学21卷9期1148-1160页。

92.Moerland，T.M .等人(2018)《强化学习代理和机器人中的情绪:一项调查》。马赫。学习。107 (2), 443-480.

93.卡纳梅罗，L. (2021)体现了跨学科情感研究的机器人模型。IEEE Trans。影响。计算机。12 (2), 340-351.

94.作为变化的政策梯度的深层主动推理。数学j。心理学。96, 102348.

95.Millidge，b .等，《论主动推理与作为推理的控制的关系》，主动推理，施普林格国际出版公司，2020年，第3-11页。

96.赛义德等(2021)主动推理:去神秘化和比较。神经计算。33 (3), 674-712.

97.Hesp，c .等人(2021)深刻感受到的影响:深层主动推理中价的出现。神经计算。33 (2), 398-446.

98.Shine，J.M. (2019)神经调节对大脑中整合和分离的影响。趋势认知。Sci。23 (7), 572-583.

99.Azzalini，d .等人(2019)内脏信号塑造大脑动力学和认知。趋势认知。Sci。23 (6), 488- 509.

100.奎格利，K.S .等人(2021)内视知觉的功能:从能量调节到自我体验。神经科学趋势44 (1)，29-38。

101.Raut，R.V .等人(2021)全球波使大脑功能系统与波动唤醒同步。Sci Adv 7 (30)。

102.伯纳德·c .(1974)讲授动物和植物的普遍现象。斯普林菲尔德:查尔斯·c·托马斯。

103.Singh，s .等，奖励从何而来，认知科学学会年会论文集，2009年，第2601-2606页。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：天承办公室 > 《008矩阵进化》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

天承办公室

关注对话

TA的最新馆藏

刘震云说：“不要同情弱者，弱者不一定是好人，弱者其实都很蠢，对帮
周鸿祎主动跟雷军要车？
刘亦菲“雨中骑马戏”为何被删？当看到她后背那刻，全明白了！
雷军本色出演商业大佬，互联网大佬都在布局电影娱乐行业
王健林:目前王思聪这个状态，不用给他留家产 #王健林
震撼！中国人形机器人学会跑酷，跳上40公分高台，仅需小成本运转，深度学习技术是关键

喜欢该文的人也喜欢更多

热门阅读换一换