HASHKFK
BETHASH官方网站(访问: hash.cyou 领取999USDT)
在当代心智和大脑科学以及致力于这些科学的现代哲学领域,标有“预测处理”一词的广泛方法已经获得了相当大的关注。尽管并不总是明确划分,但这是一个涵盖许多不同的思维和大脑模型的总称,其中许多模型具有不同的理论承诺和解释目标。最近这种崛起的早期催化剂是强调预测编码算法的可能性的论文,该算法已经在信息和计算机科学中广泛使用(例如,用于数据压缩),也可能代表大脑实现感知的一种合理手段。这些算法在计算上和能量上都是高效的,因为它们只是对预测和预测误差信号 (即预测和观察到的输入之间的偏差大小)进行编码。在该方案中,
受到预测编码成功的启发,随后有人提出,预测处理可能为理解一般的大脑过程 (包括学习、 决策和运动控制)提供一个统一的框架。关于决策和运动控制,实现这种统一的一个有影响力的 建议是主动推理,它将这些控制过程转化为类似的预测误差最小化过程 在这种情况下,通过移 动身体来最小化预测误差尊重一系列关于身体应该在哪里的先前信念。然而,该提案的一个违反直觉的方面是,它没有假设任何乍一看可能被视为明确意向的东西;也 就是说,该框架似乎只包含信念性的、类似信念的元素,而没有意动的、类似奖励或欲望的元素。
在本文中,我们解决了这样的担忧:主动推理模型可能与民间心理学中的信念‑欲望‑意图(BDI)模型存在冲突,即我们根据信念和欲望的特定组合形成意图的概念(即,命题态度,例如“相信X”和“渴望 Y”)。之所以出现这种担忧,是因为主动推理模型没有在数学描述层面明确包含欲 望术语 (或其他意动结构)(例如,这种担忧与更广泛的大脑预测处理理论相关,参见 Clark,2019;Dewhurst, 2017;Yon 等人,2020)。如果这种担忧成立,则可以认为主动推理模 型是不可信的,因为它们不捕捉认知的核心方面,或者 在这些模型成功的范围内暗示应该从心理学的科学理论中消除欲望 (即 消除主义;Churchland,1981)。为了解决这个问题,我们首先简要回顾一下从预测编码到当前主动推 理模型的历史进程,这使我们能够区分运动控制的主动推理公式 (民间心理学下不需要有欲望)和主动 推理公式 决策过程(在民间心理学中确实有欲望)。然后我们表明,尽管在描述的数学层面上存在表 面张力,但主动推理包含在描述的心理层面上很容易被识别为欲望 (以及相关的意动结构)的术语。然后,我们讨论主动推理可能提供的额外见解以及对当前辩论的影响。
在 20 世纪 90 年代末,Rao 和 Ballard 提供了令人信服的演示,说明预测编码如何解释视觉皮层神经 元的特定感受野特性(Rao 和 Ballard, 1999)。 Friston 及其同事随后进一步发展了这一领域的 工作,提出了一个更广泛的理论,即预测编码如何解释微观和中观尺度的大脑结构 (例如,皮质柱中突触 连接的模式、前馈和反馈连接的模式,皮层层次结构),同时还解释了功能神经成像 (fMRI)和脑电图(EEG)研究中的广泛经验发现 (Bastos 等, 2012; Friston, 2005; Kiebel 等, 2008);有关 测试该理论的实证研究的最新回顾,请参阅 Walsh 等人.(2020)。预测编码的一个固有特征,即通过预期可靠性或精度对预测误差进行加权,也提供了一种有吸引力的选择性注意理论(Feldman &Friston, 2010),而更新预测和预期精度的过程在更长的时间尺度上进一步提供了一种有吸引力的、 生物学上合理的(Hebbian; Brown etal., 2009)学习模型(Bogacz, 2017)。这些理论也与计算机 视觉领域先前(和正在进行的)发展相协同(Hinton & Zemel,1994;Hinton 等人,1995),计算机视觉领域已成功地将类似的预测误差最小化算法应用于人工神经网络中的无监督学习。
这一工作思路最终提出了这样一种可能性:预测编码可以提供一个统一的原则,通过该原则来理解整个大 脑,也就是说,整个大脑可能会不断地生成预测,然后在这些预测被违反时更新信念。按照这种观点,大脑 可以被设想为一种多级 “预测机器”,其中神经层次结构中的每个表示级别 (在不同的时空尺度和集成/抽象级别上编码信念)都试图在预测中保持准确。它对下层活动模式的预测(即,底层是感官输入本 身;Clark,2015).这可以解释许多跨越较低和较高层次感知过程的经验发现 (例如,从边缘检测到 面部识别;Walsh 等人,2020)以及许多感官方式(即来自身体内部和外部;Seth,2013;Smith 等人,2017)。
然而,要成为一个完整的大脑理论,预测编码需要扩展到其作为感知理论的起源之外。这个难题中最 明显缺失的部分是运动控制。由于本体感觉 (即身置的感知)的预测编码解释与改变身置的能力之间的紧张关系,运动控制的可能性似乎也不相容。也就是说,如果预测编码应用于本体感觉,那么 关于身置的信念应该简单地通过 (精确加权)本体感觉预测误差来更新,就像任何其他感觉方式 一样 (即,基于来自身体的传入信号)。因此,无论是精度、预测还是预测误差信号 (即预测编码中的唯 一成分)似乎都无法解释大脑在控制骨骼肌活动以改变身置方面的作用。换句话说,如果所有神经 信号仅根据预测编码中的元素来解释,则不清楚本体感觉预测信号如何响应来自身体的输入 (例如,如 视觉或听觉)而变化,同时还允许当动物在其环境中移动时身置的变化。额外的电机命令信号似乎是必要的。
为解决这个问题而提出的主要建议被称为“主动推理”(Adamset al.,2013; Brown etal.,2011; Fristonetal.,2010)。该提议提供了一种理论,说明本体感觉域内的预测信号如何本质上充当 运动命令,只要它们在需要运动时短暂地对脊髓反射弧产生正确的影响。简而言之,如果本体感觉预测 信号被高度加权 (即,使得它们不会被关于身置的矛盾的感觉信息更新),它们可以调节脊髓反射弧内的设定点引导身体移动到该位置与新设定点相关 (即对应于下降预测)。这种运动控制的概念与悠久的理论体系完全一致。范围从观念运动理论到平衡点假说和知觉控制理论(Feldman,2009;Mansell, 2011).主动推理进一步表明,可以扩展精确加权的概念,这样,除了简单地对感觉 输入的可预测性进行编码之外,还可以使用类似的加权机制来控制何时通过传统的预测编码更新有关身置的预测。(感知)以及当它们被用来将身体移动到与下降预测一致的位置 (即充当运动命 令)时。因此,这种类型的推理不是与传统预测编码模型相关的被动感知推理过程,而是“主动”的,因为当这些预测被分配正确时,可以通过将身体移动到预测位置来最小化预测误差 (动态控制)精确称重。从那时起,类似的模型也被用来解释皮质和皮质下内脏运动控制过程以及大脑如何感知和调节身体 内部状态的相关方面(Harrison 等人, 2021; Petzschner 等人,2017) , 2021; Pezzulo 等人, 2015; Seth, 2013; Seth & Critchley, 2013; Smith 等人, 2017; Stephan 等人, 2016; Unal 等人, 2021)。
然而,至关重要的是,这是一个关于预测如何实现运动控制的低级理论。与感知中的预测编码一样, 这些预测、预测错误和精确信号被认为是次个人 (无意识)过程,与有意识的期望或有意识的惊讶不符。因此,这并不是说,当我们希望采取某种姿势时,我们有意识地选择相信我们的身体处于不同的姿势,或者我们对身体姿势的有意识信念总是会产生行动。我们可以清楚地[在某些情况下错误地(Litwin,2020)]相信我们的身体处于一个位置,同时试图将其移动到另一个位置 (Yon 等人, 2020)。就 本文而言,更重要的是,这种“第一代”主动推理框架并不是决策理论。换句话说,它没有解释我们 如何决定或计划将身体移动到哪里;它仅解释了一旦做出决定后如何使用预测编码装置来执行身体运动。
在一些讨论中 (例如,参见 Clark, 2015),这种电机控制理论也被考虑在分层控制设置中, 其中更高级别的紧凑电机计划通过下降的级别逐步解包,最终导致控制的低级别预测许多运动过 程在较长的时间内并行进行。例如,吃冰淇淋的计划可以设置一个较低级别的计划走到冰箱并打开 门,这可以设置一个较低级别的计划来采取一系列步骤,依此类推,直至控制脊髓反射弧。这也与主 动推理和更广泛的心理学文献中其他地方对目标层次结构(其中较高级别的目标设定较低级别的 目标)的一些讨论一致 (例如,参见 Badre, 2008; Pezzulo 等人, 2018)。然而,这些控制过程仍然受到最高层意图形成的限制;也就是说,上述分层系统最终通过这些模型中未包含的决策过 程选择了计划后,实现了对行动顺序的控制。
最近,结合决策使这些模型进一步扩展到离散状态空间马尔可夫决策过程领域(Da Costa et al., 2020a; Fristonetal., 2016, 2017a, 2017b, 2018; Parr & Friston, 2018b)。重要的是,虽然这些扩展也被称为“主动推理”,但从形式上讲,它们与上述基于预测的运动控制模型不 同。为了清楚起见,我们将电机控制版本称为“电机主动推理”(mAI),将决策版本称为“决策主 动推理”(dAI)。
就本文而言,关键区别在于,与 mAI 模型不同,dAI 模型明确描述了一个过程,在该过程中,决策者 决定要做什么以生成一些观察结果而不是其他观察结果 (即,因为某些观察结果优于某些观察结 果或预计比其他人提供更多信息;如下所述)。相比之下,mAI 不做决定。相反,一旦决定要 做什么 (即一旦选择了计划的动作序列),mAI 就会使用本体感受预测信号来移动身体以执行决 定的动作序列 (即本体感受预测发挥作用)电机命令,如上所述)。在最近的“混合模型”中,这已 经得到了定量模拟,其中 dAI 模型可以将 mAI 模型放置在其下方作为较低的层次结构级别。然后, 较高级别的 dAI 模型可以将决定的动作序列反馈给较低级别的 mAI 模型,后者可以通过动态调制 模拟反射弧内的设定点来实现该动作序列(Friston 等人,2017b) 。例如,dAI 级别可以决定在执行任务时要注意的一系列位置阅读时,较低的 mAI 水平可以将眼睛移动到指向确定的位置序列。
正如下面将更详细讨论的,dAI 模型的是由与预测编码模型相同的类似信念的元素 (预 测、预测误差、精度等)构建的。值得注意的是,与其他领先的决策模型不同 主要的例子是强化学习(Sutton & Barto, 2018)dAI 模型中没有任何内容被明确标记 (在数学描述层面):意向结构, 例如价值、奖励、目标、动机等。形式上,这些模型只是配备了一组关于行为、状态和结果的概率分布 (即 技术意义上的“贝叶斯信念”)。这些分布之一编码了对最有可能先验收到的观察结果 (即上述首 选观察结果)的先验期望,并且模型推断出预期导致这些观察结果的动作序列 (同时寻找将导致这些 观察结果的观察结果)。最大限度地提高对当前世界状况信念的信心)。请注意,在分层模型中,“观察”也可以对应于较低级别状态的后验 (贝叶斯)信念。
这源于一个更基本的原理 “自由能原理”(FEP) 所有类型的预测编码和主动推理都可以从中衍生出来。这将在下面进一步讨论,但简而言之,FEP 从一个不言而喻的道理开始,并通过该不言而喻的含义发挥 作用:即,我们观察存在的物理系统,因为它们作为具有可测量的系统而持续存在。在可观的时间和空间 尺度上的属性 (Friston, 2020)。生物是现存系统的一个子集;事实上,生物体要生存,它们必须保 持在有限范围的表型状态[即那些与其生存一致的状态,广义上解释(Ramstead etal.,2018)]。根 据定义,这些表型状态必须比有害状态 (例如导致结构完整性丧失和死亡的状态)具有更高的概率。这 些表型状态被更频繁地占据意味着有机体将更频繁地观察到占据这些状态的感官后果 (例如,作为一 个人,我的生存意味着我将继续以高概率感知感官后果)在陆地上而不是在水下;相反,对于鱼来说,在 陆地上观察的概率很低)。因此,同样根据定义,只有那些寻求这种高概率观察的生物体 (即那些根据 其表型而隐含 “预期”的生物体)才会继续存在。在 FEP 下,其他决策和控制方法 (例如强化学习)中常用的价值函数被这些 “表型预期”观察的先验偏好所取代(Friston, 2011; Hipolito 等, 2020)。
它被定义为模型下所有可能 的状态和观察组合的联合概率密度p(o,s)(Ramstead 等人, 2020a) 。这种联合概率密度称为生 成模型,因为它指定了世界上不同的不可观测状态将生成哪些观测结果。因此,在 FEP 下,存在就是不断产生观察结果为某人的表型提供证据。然而,直接评估一个人表型的证据 即给定模型(m )、 p(om) 的观察结果的 边际概率 (o) 在数学上通常是棘手的。幸运的是,有一种易于处理的方法来估计p(om);也就是说,通过 寻找最小化称为变分自由能 (F)的统计量的信念。变分自由能本身允许不同的分解,从而阐明其不同的作 用。一种这样的表述是衡量一个人信念的复杂性减去这些信念的准确性(通过他们预测传入的感官数据的程度来衡量)。考虑最小化复杂性的一个简单方法是,在寻找最大化准确性的信念时,智能体还寻求 尽可能少地改变其先前的信念。因此,FEP 下的感知、学习、决策和行动将产生最简约 (最准确且最不复 杂)的信念。
然而,上述术语指的是现有的观察结果,而 dAI 需要选择预期的行动以便在未来生成首选(表型一致)的观察结果。例如,由于考虑到所有动物的表型,保持水分是“预期”的,因此应提前选择行 动以确保将来观察到足够的水合 (例如,在水合水平太低之前喝水)。由于变分自由能只能在存在观察 时进行评估,因此生物体必须在技术上选择能够最小化预期自由能(最常表示为G)的相关量的行动,这 是在遵循一系列预期结果时预期的自由能。给定一个人的世界模型的行动。在与 dAI 相关的神经过程理 论中,一种类型的预测误差信号 (“状态”预测误差)通过最小化F 来驱动感知信念更新,而决策可以表示为由另一种类型的预测误差 (“结果”)驱动预测误差),它 (部分)对应于每个可能决策下预期的观察结果与生物体先验寻求的表型一致 (首选)观 察结果之间的预期偏差;例如,参见(Friston 等人, 2018)。因此,当前主动推理的表述呼吁前瞻性决策过程 (即计划或政策),旨在最大化表型一致的观察结果。
需要强调的是,“预测处理”中思想发展的粗略概述是不完整的。预测编码和主动推理 (mAI 和 dAI) 的故事还有很多,并且已经提出了其他几种预测处理 (或 “贝叶斯大脑”)算法和实现:例如,参见 Knill 和 Pouget (2004),马蒂斯等人。 (2014)、 Teufel 和 Fletcher (2020)。在这里,我们还重点讨论了由 FEP 引发的一系列理论。考虑到这一点,我们粗略的历史概述足以理解我们 在本文中寻求解决的问题。
在深入探讨主动推理的之前,首先考虑两大要点很重要。第一个是关于个人之间的区 别(有意识的)和次个人的 (无意识的)过程。第二点涉及到描述的层次及其潜在的合并。对于第一点,dAI 模型主要用于描述次个人的、无意识的过程。为了例如,dAI 并没有声称人们在产生预测错误时会感到主观上的惊讶,也没有声称人们知道先验 的类型与这些预测误差相互作用的期望 (例如,无意识视觉先验的例子,参见 Ramachandran, 1988)。与“意外”相关的结构数学中的预测错误并不等同于民间心理学惊喜。它只是生成模型的证据衡量标准;它衡量了一些数据的“令人惊讶”程度,(鱼儿离开水的成都为惊讶程度)给出了数据可 能如何生成的模型。
个人 (有意识地可及)和次个人之间的关系因此,(无意识)计算仍然是一个悬而未决的问题。也就是说,一些特定的 dAI 模型已被用 来描述更高层次的认知过程,这些过程可以产生有意识的信念和口头报告(Smith et al., 2019a, 2019b; Whyte &史密斯, 2021;怀特等人, 2021)。在这些情况下,推理 (预测误差最小化)过程仍然可以被 视为亚个人或无意识的,但由此产生的结果信念和决定本身被认为已进入意识。作为基本规则,然而,不应期望 dAI 中的次个人流程能够一对一地映射有意识地访问或个人级别的流程。
关于第二点,在目前的情况下,重要的是要避免不适当地将数学描述水平与心理描述水平混 为一谈。描述。概率分布起着先验 (贝叶斯)作用的事实事实上,对数学的信仰并不意味着它应该等同于心理描述层面的信仰。贝叶斯信念是 一种正式的数学对象,而心理信念则不是。因此我们应该避免过度具体化数学描述的错误。投射方式略有不同,我们不应该犯将自然语言术语的指称混为一谈的错误就像数学中使用的“信念”与民间心理学中使用的“信念”一样。
正如我们将在下面看到的,人们可以毫无问题地使用概率分布(贝叶斯信念)代表期望的结果 但只需查看这方面的dAI 是一种有用的数学方法,可以让愿望完美地融入完全贝叶斯方案。换句话说,人们可能会认为 dAI 是一种无需解释分布编码的人类决策的良好模型期望的结果作为心理意义上的信念。根据这种观点,数学术语本身并不意味着与 (或)民间心理学的一般经验合理性。而是评估一致性需要识别所扮演的 (独立于术语的)功能角色dAI 和民间心理学中的每个元素,然后确定是否相同每个中都存在功能角色。评估合理性需要进一步测试这些框架的实证预测。
dAI 模型的行为预测准确地捕捉了真实有机体行为的模式,也就是说,它们可以解释行为比现有的替代模型更好 也可以提出一个较少通货紧缩的观点。根据这种观点,如果计算和民间心理学预 测趋同 (Kiefer, 2020) 并且没有其他可用的理论可以同样很好地解释行为 这可能意味着 dAI 的数 学结构不仅仅是一个有用的描述性模型,而且相反,它捕获了潜在的真实信息处理结构,并实现了民间心理 学和相关能力。在这种情况下,关键的一点仍然是不应将数学和心理学层面的描述混为一谈。然而,dAI 模型 仍然可能提供有关民间心理类别/过程的真实形式的更详细信息。例如,它们可能意味着诸如动机和期望结 果之类的意向状态采用类似概率分布的函数形式,与信念相结合以形成意图;或者,他们可能会通过强调像 “欲望”这样的术语实际上在算法层面上具有多个所指对象 (即,与取消主义声称它没有所指对象的说法 完全相反)来增加民间心理学的粒度。
首先,我们定义决策代理在每个时间点 (τ ) 可以占据的一组世界状态,概率分布p ( sτ1)编码关于当前在该 时间点占据每个状态的概率的信念。决策过程的开始 (例如,实验任务中的尝试)。然后,我们定义一组关于智能体可能采取的可能行动序列的信念(称为“策略”),用 π 表示。每个策略都可以被视为预测特定 状态转换序列的模型。因此,在给定每个可能的策略p(sτ+1sτ ,π)的情况下,我们必须写下智能体认为从一 个时间点到下一个时间点在状态之间移动的方式。在每个时间点,代理接收观测值(oτ ),并且必须使用这些 观测值基于 “似然”映射来推断对状态的信念,该“似然”映射指定状态如何生成观测值p(oτ sτ )。因为每 个策略都是一系列状态转换的模型,并且每个状态都会生成特定的观察结果,这意味着可以计算每个策略 下预期观察结果的先验信念p(oτ π),然后观察到的结果可以提供不同的结果某些(特定于政策的)模型的 证据数量超过其他模型。最后,因为我们最小化自由能以近似最佳信念更新,所以我们还定义了一个 (近似) 后验信念分布,表示为q(sτ ),它将随着每个新观察而更新。
右侧第一项是“复杂性”项,它是先验信念和近似后验信念之间的 Kull‑back‑Leibler (KL) 散 度 (即,量化新观察后信念变化的程度)。信念的较大变化会导致F值较高,因此不受欢迎。右边的 第二项反映了预测准确性 (即,给定模型下状态信念的观测概率)。精度越高, F值越低,因此受到 青睐。因此,最小化F可以最大化准确性,同时惩罚信念的巨大变化。2因此,找到最小化F的后验信念 集将近似对如何生成观测值的最佳解释。这是可以做到的,因为自由能是信念 (概率分布)的函数, 也是观察的函数。因此,观察结果可以保持固定,信念可以变化,直到找到与变分自由能最小值 (模 型证据最大值)相关的信念。在随附的神经过程理论中,这是通过神经元动力学最小化状态预测误差 (sPE)来实现的,神经元动力学对变分自由能执行梯度下降。
右侧的第一个(风险)项编码了我们关于 dAI 和 BDI 本体之间联系的争论中最核心的两个量之间的预 期差异 (KL 散度)。第一个是q(oτ π),它对应于您选择做一件事而不是另一件事时所期望的观察结果。当 将模型应用于正确的认知过程时 (见下文),这很好地映射到了对观察结果的心理层面期望(即预期)的口 语概念。例如,假设您不小心带着破损的降落伞去跳伞。在这种情况下,无论你选择什么行动,你都会有一个 明确的期望/信念,你会撞到地上然后死。随着每一秒的过去,这种民间心理信念可能会变得越来越强烈,尽 管你不想撞到地上。因此, q(oτ π)这个术语扮演着类似于常见类型的民间心理信念或期望的角色,而不是 欲望的角色。analogous to a common type of folk-psychologicalbelief or expectation, and not the role of a desire
预期自由能内风险项中的第二个量p(oτ ) 是与观察结果无关的先验。这编码了与生物体表型一致的观察 结果;即那些与有机体的生存、繁殖和其他相关目标一致的观察结果。在 dAI 文献中,这种分布通常被称为 “先验偏好分布”。从等式中可以看出,选择最小化G(π) 的操作(可以在神经 dAI 模型中通过最小化结 果预测误差(oPE)信号来完成)涉及最小化这些表型一致的先验期望与预期之间的差异政策下的结果。更简 单地说,智能体试图推断哪个动作序列将产生尽可能接近表型一致结果的结果。正如下面进一步讨论的,这 本质上与代理选择它认为最有可能得到它想要的东西是同构的。
“softmax”函数,它将结果转换回适当的概率分布非负值总和为一)。向量E(π) 用于对可用于建模习惯的 策略进行固定先验编码。 F (π) 项对每个政策下过去和现在观察的变分自由能进行评分(即这些观察为 每个政策提供的证据)。换句话说,它反映了每项政策对迄今为止收到的观察结果的预测效果。请注意,这 仅在策略锚定到特定时间点时才相关 (例如,涉及某些初始状态的特定序列的策略,例如在响应“执行提示”之前等待一段时间)。通过这些类型的 策略,可观察到的结果使某些策略比其他策略更有可能实现。在下面的说明性模拟中,我们将使用这种 顺序策略来说明过去和未来如何承保策略选择。
生成F(π)之前的p(π);即p(π0) σ(lnE(π) − γ G(π))。在本文中,更新 β 的值(即βupdate)内的量 (p(π) − p(π0)) · (−G(π))具有一定的相关性,因为文献讨论了其值与情感状态的潜在联系(Hesp et al., 2021)。 该术语可以被认为是一种预测误差,指示新的观察结果是否提供了支持或反对G(π) 信 念的证据,即 G(π) 是否与由 F(π) 生成的 F(π)一致或 不 一致。新的观察。当此 更 新导致 γ 值增加时(即, 当G(π) 的置信度增加时),表明这可以作为积极情感状态的证据,而如果它相反导致γ 值减少(即,当 对 G(π) 的信心下降时),这表明这可以作为消极情感状态的证据。
回到上面的策略后验方程,我们注意到这通常被称为编码策略的“可能性”。然而,从心理层面的角 度来看,它也可以更直观地描述为编码选择一种行动方案而不是另一种行动方案的整体 “驱动力”。 正如我们所看到的,该驱动器由两个主要影响:优先政策E(π) 和预期自由能G(π)。虽然E(π) 很好地映射到习惯影响,但G(π) 反映了基于信 念(例如p(oτ π) 和p(oτ sτ ))和期望结果(即p( oτ ))。因此,G(π)下最可能的策略(即预期自由能最低的 策略)可以合理地与主体的意图相一致,这也源于 BDI 模型中的信念和愿望。在没有类似习惯的影响的情况 下,这种意图将成为代理人在p(π) 中最有动力选择的政策。
令人担心的是,如果主动推理模型可以解释认知和决策,而不诉诸可以映射到欲望常识概念的构造,那么这可能会被视为威胁我们对自己作为主体的直观、民间心理学的理解。这种情况也会对哲学中占主导地位 的民间心理学的传统 BDI 模型造成压力 (例如,Bratman, 1987)。 BDI 模型是人类能动性模型,它解释了有意采取行动的含义。在 BDI 模型中,信念 (事实型和工具型)和欲望结合起来形成意图。例如:我想 要食物,我相信冰箱里有食物,我相信去冰箱是获取食物的一种手段,所以我形成了去冰箱拿食物的意图)。这里出现的问题是,如果人们只诉诸所假定的结构的形式属性
通过主动推理 (即 “类似信念”的状态的概率分布,至少表面上如此),那么 dAI 中的意图形成过程就 会脱离民间心理学。我们没有信念‑欲望‑意图模型,而是类似信念‑信念‑意图模型;例如,我相信,无论我 做什么,都会让我观察到自己在吃食物,冰箱里有食物,而去冰箱是获取食物的一种方式,所以我形成了 去冰箱的意图。冰箱来获取食物)。这似乎与第一人称体验有冲突。例如,当饥饿时,我不会体验到自己 相信“无论我做什么都会让我吃食物”;事实上,我可以在特别担心的同时渴望食物,因为我不相信我 会找到食物吃。
一个突出的例子是“暗室问题”(Friston etal., 2012; Sethetal., 2020; Sun & Firestone,2020; Van deCruyset al.,2020)。简而言之,我们担心的是,如果智能体只是采取行动来最小化预 测误差 而不是在意动的、类似欲望的状态的推动下行动 那么他们应该简单地寻找非常稳定、可预测 的环境 (例如黑暗的房间)并呆在那里。他们没有理由在没有欲望的情况下离开黑暗的房间。因此,需要 诸如预期奖励、目标、欲望等来解释离开暗室的动机。
正如读者可能已经意识到的那样,这种担忧在dAI 的背景下有些错误 (Badcock 等人, 2019年; Seth 等人, 2020 年; Van deCruys 等人, 2020 年)。这至少有两个原因。首先,生物体采取行动来实现的特定表型的先验期望通常与呆在暗室中不一致 (例如,因为生物体 “期望”[从数学上 讲]执行维持体内平衡的行为,例如在脱水时寻找水) 。正如我们所看到的,这直接源于支持主动推理的 核心。也就是说,与零星批评的主旨相反,与有机体偏好相关的p(oτ )项并不是为了使 dAI 免 受致命反对而临时添加的,而是在推导预期自由方程形式时的必然结果。能量 假设有机体必须比其他 有机体以更高的概率继续进行某些观察才能保持活力。
这种类型的全局预测误差最小化过程的另一个关键方面是,它不仅涉及对当前状态的信念,而且还涉及对 过去和未来的信念。例如,打开灯不仅会更新有关个人当前所在房间的信念,还会更新有关以下内容的 信念:(1) 他们在开灯之前所在的房间,以及 (2) 他们期望所在的房间将来如果他们选择坐着不动而不 是走出门。这是根本性的,因为 dAI 带来了一组新的未知数。也就是说,代理需要推断随着时间的推移正 在制定的计划 (政策)。这意味着最小化当前的预测误差和基于最小化行动后预期的预测误差而形成 关于该做什么的信念之间存在区别 (即,最小化预期的预测误差相当于最小化不确定性)。
还值得注意的是,dAI 在上述最小化状态不确定性的驱动力和学习生成模型参数的进一步驱动力之间做出了额外的区分,例如学习给定状态的观察概率(例如,访问一个新的地方,看看那里的感觉。 这被称为“内在动机”(Bartoetal., 2013; Oudeyer & Kaplan, 2007; Schmidhuber, 2010)以及寻求 “新颖性”的动力(Schwartenbecket al.,2019),但更普遍的是涉及到了解在访问陌生国家时会观察到什么的动力。因此,除了欲望之外,dAI 还捕获了与了解一个人当前状态并了解选择转移 到其他状态时会发生什么 (以及生成模型中的其他参数)的驱动力相关的熟悉的民间心理体验。
这里值得考虑的dAI 的另一个方面是优先于策略E(π)。如上所述,当代理人重复选择某个策略时,该术语会增加代理人将来继续选择该策略的概率。在的层面上,这相当于一个代理“期望”它会选择一项政策,仅仅是因为它过去多次选择了该政策。这可以被认为是一种习惯化过程, 但它并没有与首选结果的任何直接联系。这是因为E(π) 不受代理模型中任何其他信念的影响。由此产生的效果是,如果 一项政策在过去被选择了足够多次,未来的行为可能会对预期的行动结果变得不敏感 (即,类似于经验观 察到的结果脱敏效应;例如,参见 Dickinson,1985;格雷比尔2008)。然而,在许多情况下,这种习惯的形 成将与首选结果间接相关。例如,假设代理重复选择一个策略是因为它成功地最大化了奖励, E(π) 将直 接促进对该奖励最大化策略的选择 (并且不需要其他基于模型的过程) ,这在最小化计算/代谢成本方面 具有优势)。与结果脱敏一样,只有当环境中的突发事件随着时间的推移而发生变化时,这才会成为问题。这 凸显了这种类型的习惯形成与其他促进 dAI 中类似习惯的行为模式的机制之间的重要区别。例如,在重复经历后,行动也可能变得难以改变,因为代理人对每个行动下的奖励概率建立了高度自信的信念;例如,在 p(oτ sτ )内。如果突发事件发生变化,代理人可能需要进行大量的试验才能忘记这些信念。然而,与 E(π) 的影响不同,在这种情况下,对首选结果的直接敏感性仍然存在 (尽管有所减弱)。
然而,这里的要点是,在E(π) 中建立先验策略提供了 dAI 智能体不会留在暗室中的另一个原因。这是因 为,在建立此类先验之前,将选择政策来获取信息和/或实现首选结果。经过反复的政策选择后,这些先验将 简单地巩固这些行为模式。在的层面上,这涉及到关于将选择哪些政策的贝叶斯信念 (因此不存 在类似愿望的世界与心灵的契合方向)。然而,在心理层面上, E(π) 似乎很好地对应了个体感到以特定 方式行事的强迫动机的情况,尽管对预期行动结果的信念相反。
除了暗室问题之外,这里值得简要强调的第二个担忧是dAI 似乎可以消除悲观的预期。回到上面关于降 落伞破损跳伞的例子:撞到地面是高度预测的,但肯定不符合表型一致的预期。换句话说,我们可以预测一件事,但更喜欢另一件事。这种担忧可以通过强调 dAI 中两种不同类型的期望 (即对状态的先前期望与对 结果的期望)来解决,我们将在下面更正式地演示。然而,dAI 的次个人 (算法和实现)描述水平与其在民间心理描述水平上的适当概念化之间的关系尚未 得到充分阐述。下面,我们 显示了dAI 和吸引 BDI 类型本体的描述级别之间的合理映射。我们证明,当强调数学描述层面的 特定贝叶斯信念可以直接与心理描述层面的欲望相识别时,民间心理学和 dAI 之间的明显冲突在很大程度 上消失了(即,这些贝叶斯信念与期望结果的表示)。这些结果与 Clark (2019)最近发表的一篇论文中的 论点大致一致。最近的这篇论文考虑了在更广泛的预测处理范式中存在的愿望/动机的一些担忧,并展示了 如何通过各种类型的相互关联的先验信念来适应这些愿望/动机。然而,我们的论点与之前的考虑之间存在 一些重要的差异。首先,我们将民间心理学构造映射到当前主动推理实施中所采用的的特定元素, 而不是预测处理范式中更广泛的理论构造。4其次,虽然这篇先前的论文捍卫了这样的观点,即单一构造由 于先验信念同时扮演着信念和欲望的角色,我们强调了 DAI 中的不同元素如何映射到信念和欲望。我们还针对此类构造提出了一种完全非消除主义的立场,并建议构建主动推理模型的一组理论原语就 足够了,不仅可以恢复民间心理学的范畴,而且还可以揭示潜在的细微差别。它们具有更细粒度的区别。
要完成民间心理学 BDI 结构的映射,现在需要纳入欲望。在这里,我们认为期望的结果以完全同构 的方式映射到先前的偏好p(oτ ),并纳入预期的自由能中;也就是说,无论何时应用于对认知过程的相关 (可能是高)水平和类型进行建模, p(oτ ) 中编码的贝叶斯信念集所发挥的功能作用与心理层面上 期望结果的表示相同。在与民间心理学相关的分层模型的高层次上,期望的结果只是下一个层次的后验 信念(例如,希望观察自己处于富裕状态)。相比之下,在神经层次结构的最低级别,观察结果与感觉数 据相对应,预计p(oτ ) 会修复体内变量的稳态范围以维持生存(Pezzulo 等人, 2015 年, 2018年; Smith 等人)等人,2017 年; Stephan 等人,2016 年; Unal 等人,2021 年)。
在这种情况下,大脑会无意识地保持血糖水平、血液渗透压水平、心率等变量在与长期生存一致的范围内。这些驱力不是有意识的、民间心理学意义上的“欲望”,但它们被期望为等级系统的其余部分奠定基础,以(学会)渴望和寻找其他东西,因为它们最终将对内脏状态的观察保持在这些“期望的”稳态范围内。例如,我可能学会渴望去一个特定的餐馆,因为处于“在那家餐馆”的状态预期会产生对食物的观察,而吃食物预期会产生对血糖水平增加的观察,等等(Tschantz 等人,2021)。或者,如果观察到预测血糖水平即将下降的提示, 大脑可能会采取暂时增加血糖水平的“行动”(改变内脏反射弧中的设定点)来对抗即将下降的血糖水平(Stephan 等人,2016;乌纳尔等人,2021 年)。这种(无意识的)机制促进骨骼运动或内脏运动动作的选择,从而防止预期的未来偏离体内平衡范围的想法被称为异位(关于具体的生成模型和模拟,参见(Stephan 等人,2016;Tschantz 等人,2021 年)。
当使用dAI 模型来模拟有意识的、目标导向的选择 (例如,选择去哪家餐厅,但不选择是否提高心 率)时,我们的论点是p(oτ ) 总是(并且必须)能够成功履行 BDI 框架内代表期望结果的职能角色。也就是说,任何欲望驱动行为的情况都可以使用正确的p(oτ ) 规范进行建模。例如,如果结果空间中的最 高值被指定用于观察 p(ot) 中的“品尝冰淇淋” ,并且策略空间包括 “不要移动”或 “走到冰淇淋车 并购买冰淇淋” ,dAI智能体会推断出走到冰淇淋车前购买冰淇淋是预期自由能最低的策略 也就是 说,它会形成去购买冰淇淋的意图。此外,当考虑涉及目标导向选择的案例范围时,我们未能成功地识别 p(oτ ) 所扮演的角色与代表期望结果不一致的例子。因此,如果期望结果的语义和功能作用永远不会与 p(oτ ) 的作用不一致,并且p(oτ )的作用始终与欲望的语义和功能作用一致,那么主动推理确实有效地 包含预期的结果。
这与最近使用dAI 对强化学习和奖励寻求任务中的行为进行建模的实证工作是一致的 (Markovic等人, 2021; Sajid 等人, 2021; Smith 等人, 2020、2021a、 2021b) ,以及其他工作证明 dAI在某些限制情况下满足贝尔曼最优性标准 (即强化学习中的最佳奖励寻求)(Da Cost 等人, 2020b)。 在这些情况下,p(oτ )用于编码对赢钱或输钱或积分(例如,主观奖励值)、受到积极或消极情绪刺激等的相对偏好的强度。然而,值得强调的是,与强化学习代理不同,dAI 代理的目标并不是最大化累积奖励本身。 相反,dAI 代理寻求达到 (并维持)目标分布 (该分布可以被解释为奖励)。事实上,最近基于 dAI 的工作已 经展示了如何将感知和行动共同最小化与具有不同拟合方向的此类目标分布的偏差,并说明了信息寻求和 奖励寻求行为如何从这一 目标中产生 (哈夫纳等人, 2020)。这是与维持上述稳态的密切联系以及选择 可以防止预测的未来偏离稳态的稳态政策的基础。
这也与实验心理学中当前的动机行为模型有一些理论上的重叠。例如,激励显着模型假设动机是针对期 望的状态/激励 通过与这些状态的当前 (抽象)距离来增强,并通过表示达到这些状态的行动的可用性的 线索进行调节(例如,饥饿和感知线索)表明食物的供应量将增强进食的动力;Berridge, 2018)。稳态强 化学习模型还提出了奖励大小与趋向稳态的距离之间的联系(Keramati & Gutkin, 2014)。在如上所 述的强化学习任务中,基于稳态的目标分布的驱动力可以与预测达到这些分布的能力的线索 (例如金钱、社 会接受度)相关联。在此类任务中的学习过程中,个体可能会看起来好像他们更喜欢其他观察结果,因为他们 了解到(在p(oτ sτ ) 内)这些观察结果是由也产生首选结果的状态生成的(例如,看起来好像他们有由于 了解到音调是由也产生奖励的状态生成的,因此渴望听到音调)。
然而,重要的是要澄清,上述p(oτ sτ ) 内的关联奖励学习(类似于学习奖励函数,其中代理获取从状态到奖励/惩罚的映射)并不涉及改变先验的形状偏好分布p(oτ ) 本身。相反,它涉及学习哪些状态/动作将可靠地生成首选观察结果。相反,学习先验偏好本身意味着代理人每次观察到结果时都会越来越喜欢结果(即, 独立于它们与其他偏好结果的关系)。例如,在语音中简单地听到几次最初的中性音调在这种机制下,如果没有奖励,就会导致语气越来越强。首选(即,因为其先验概率会不断增加)。这可以是解释“纯粹暴露”效应的一种方式(Hansen & Wänke, 2009; Mon‑ahan et al., 2000),其中中性刺激的简短 (甚至是潜意识)呈现可以增加对这些刺激的偏好。然而,个体表现出对比在其他情况下对新奇刺激的偏好(例如,对熟悉的面孔的偏好,但对于新颖的场景;Liao et al.,2011),这种效应也可以通过联想学习或认知驱动来解释 (例如,熟悉的面孔 可能与安全相关)交互,而新颖的场景可能携带更多的信息)。那据说,认知驱动和偏好学习也可能相互作用。例如,最近模拟工作对新环境中dAI 代理的行为进行了建模不包含奖励(Sajid etal.,2021)。在这种情况下,代理商积极探索环境,直到不确定性得到解决,然后倾向于以下状态被访问最频繁(即,最 “熟悉”并产生在认知觅食期间最常观察到的结果)。相关模拟工作有还探讨了生物体如何学习其生态位的行动导向模型,这些模型不需要完全准确,而只需包含生成式结构和先验偏好对于指导其中的适应性行为最有用利基 (Tschantz 等人, 2020)
学习p(oτ ) 可以为某些领域的联想学习建模提供替代方案的情况下,但这也会在其他情况下做出不同的预测。例如,与学习p(oτ sτ ),学习p(oτ ) 也会导致强烈非偏好的结果(例如,腿部被刺伤)将变得越来越偏好,如果特工被迫不断地忍受它们 以至于特工会最终自愿找到他们。目前尚不清楚这些预测的可信度如何在许多情况下,它们将取决于许多假设。作为一个例子,需要对p(oτ ) 先验的初始精度做出假设学习,高精度可以显着减缓偏好变化(例如,也许对组织损伤等生物命令的负面偏好足够精确,可以有效地阻止偏好学习)。也就是说,有也个人寻求痛苦或选择长期处于适应不良 (例如虐待)情况的情况。但这些案例都很复杂,需要解释此类行为是基于联想强化学习提出的,不确定性回避,以及各种类型的人际依赖,这些都不需要诉诸熟悉效应(Crapolicchio 等人, 2021; Lane 等人, 2018; Nederkorn) 。等,2016;赖茨等人, 2015)。测试相互竞争的预测非常重要未来通过模型比较进行联想学习和偏好学习实证研究。然而,一个中心点是,尽管偏好学习的可能性仍然与p(oτ ) 始终代表期望的想法一致BDI 框架中的结果 (例如,代理只是希望被刺伤在腿中) 所提出的dAI 中的偏好学习机制可能会进入与民间心理直觉的紧张关系,并允许实证研究找到一种与另一种的证据(也就是说,如果p(oτ ) 在 dAI 形 式主义中的作用是被认为不仅仅是指定奖励的方便的数学工具的话)。
另一个值得简单回顾一下的与学习相关的问题是习惯的养成,这也得到了广泛的实证研究。如上所述,先验知识DAI 中编码习惯的政策不具有意动 (世界到心灵)的契合方向,从的角度来看可能纯粹是认知 性的5。然而,当通过重复选择最大化期望结果的政策而获得习惯时,它们将间接推动决策继续实现这 些成果 (即,如果环境突发事件稳定)。因此,人们可以看到其功能角色背后的隐含逻辑是间接服务于 意向目标 (并注意这也适用于巩固有效的信息寻求行为)。这些习惯还与明确的意图(即预期自由能的影响)竞争,以控制 dAI 中的动作选择。虽然这与欲望不太 相符,但它似乎确实能够捕捉其他类型的感受到的动力。也就是说,这种竞争有一种看似合理的同构性,即人们强烈渴望以某种方式采取行动 尽管明确相信 采取不同的行动方针会更有效。这种动态也与强化学习理论相似,该理论假设基于模型的控制和无模 型控制之间存在基于不确定性的竞争,这些理论也获得了实证支持(Dawetal.,2005, 2011; Dolan & Dayan, 2013) 。因此,在某种程度上,这种类型的动机在本质上被认为是广泛意动的,它可能捕捉 到决策现象学的另一个相关 (和心理上直观的)方面。
为了了解这些如何对形成实现预期结果的意图产生独特的、类似动机的影响,我们在图1中展示了一 些简单的模拟示例[有关生成模型的技术细节,请参阅“附录”和补充代码,并参见史密斯等人。 (2022)详细解释这些dAI 模拟是如何实现的;补充代码可在以下网址找到:rssmith33/Active‑Inference‑and‑Folk‑Psychology]。然而,为了说明这一点,我们将在冰淇淋示例中添加一个附加元素。也就是说,我们将模拟冰箱里有冰淇淋的情况,但厨房目前是黑暗的,因此智能体不知道冰箱是在左边 还是在右边。在这种情况下,代理可以首先打开电灯开关来查看冰箱在哪里,或者它可以只是猜测并尝 试向左或向右“摸索”。至关重要的是,如果代理很想吃冰淇淋,那么找到冰块所需的时间就越长奶油越多,饥饿感就越强烈。因此,早点吃冰淇淋比晚点吃冰淇淋更可取(如果饿了)。
图1模拟主动推理智能体在有动力和没有动力去寻找冰箱吃冰淇淋时决定是否在黑暗的房间里开灯。在 3 个 “动作”面板中,青 色圆点表示所选择的动作,较深的颜色表示选择一种动作相对于其他动作的更高概率 (置信度)。底部面板显示观察到的结果 (青色点)和先验偏好分布p(oτ),其中较深的颜色表示较强的愿望。右图显示了先前与情感状态相关的预期自由能 (γ) 的精确估 计值(青色)和值变化率(黑色)(Hesp 等人, 2021)。在没有欲望(平坦的先验偏好分布;左)或对冰淇淋的欲望较弱(不 太紧急)的情况下,智能体会立即选择开灯。在微弱的欲望下,特工自信地选择靠近冰箱去拿冰淇淋。与存在欲望时不同,当欲望不 存在时,这些模拟中 γ 不会发生变化。在强烈的愿望下,获得冰淇淋是紧迫的,因此代理无需先打开电灯开关就猜测冰箱在哪里 (尽管对向左还是向右没有信心)。请参阅正文以进行进一步讨论。我们在这里不会更详细地描述生成模型或模拟,但我们在 “附录”和补充代码中提供了附加信息来重现它们。另请参阅史密斯等人。 (2021)了解如何使用 dAI 形式实现这些模拟的详细信息
在图中的“No Desire”面板中,特工不饿;也就是说, p(oτ ) 是平坦分布(底部框)。在这种情况下, 智能体仍然自信地选择打开开关 (最大限度地减少冰箱位置的不确定性),但对下一步做什么没有具体 的驱动力(“动作”框第二列中动作的灰色分布) ),任意选择向右走(青色点)。这说明了一个最小化 预期自由能的智能体如何离开暗室,只是为了最大化信息增益,即使没有预期的结果。在“弱欲望”面板中, 我们让智能体处于轻度饥饿状态,其中底部框中的黑色和白色分别表示p(oτ ) 中冰淇淋的较高值和无冰淇 淋的较低值。在这种情况下,它选择打开开关,然后自信地去左边的冰箱里取冰淇淋。在这里,开灯对于帮助 特工实现其愿望具有战略意义。在“强烈欲望”面板中,我们让智能体非常饥饿 (虽然图中不清楚,但为观 察冰淇淋与不观察冰淇淋而设置了较大的p(oτ ) 值差异)。由于获取冰淇淋的时间紧迫,特工变得冒险,没 有花时间开灯就立即向左走。在此示例模拟中,代理很幸运并找到了冰淇淋,但预计有 50% 的时间会选择 错误。这说明了p(oτ )的精度如何代表欲望动机方面的合理候选者。(虽然我们没有在这里展示,但人们也可 以使用中性观察的基线偏好水平来区分强烈偏好的观察和强烈不偏好的观察,其中如果代理强烈担心得 不到冰淇淋,它可能会变得厌恶风险。 )
重要的是要强调,这种从p(oτ )的精确度到欲望的大小的映射不仅仅是理论上的兴趣。在实践中,一些实证研究已经使用模型拟合来确定这种精确度在个体参与者中的价值。例如,对精神病学样本的两项研究在接近-回避冲突任务的背景,以确定动机的差异避免接触不愉快的刺激;并确定以下各项之间的连续关系这种精确性和自我报告的焦虑和决策不确定性(Smith等人,2021a,2021b)。另外两项针对药物使用者的研究发现了这方面的个体差异精度值,同时参与者执行三臂强盗任务,旨在检验信息寻求与奖励寻求行为之间的平衡(Smith等人,2020,2021c)。第五项研究量化了这种精确度,同时检查了风险寻求任务中不确定性的神经相关性(Schwartenbeck等人,2015年)。最后,第六项研究评估了这种精确性,以解释选择性记忆模式的差异注意(Mirza等人,2018)。这些示例说明了如何在理解在当前讨论的背景下,p(oτ)的精度可以提供激励力或实现预期结果的紧迫感的差异的精确量化.
DK 接近 0 时,则不应激发寻求奖励的行为。这对应于先验直觉我们只渴望我们尚未 (相信我们)拥有的东西,这可以说是民间心理学的一部分。这一原则可能有明显的反例,例如我们可能都住在一所房子里并且渴望住在那里。然而,一旦相关的时间区别被划定,这些就消失了。例如,我不希望我现在住在我的房子里 (我已经这样做并且相信我这样做), 因此根本没有动力去实现它。相反,我渴望的是未来我继续住在我的房子里,这个结果在某种程度上仍然是 不确定的,这会激发相应的行动选择 (例如,继续上班以确保我能负担得起房子的费用)。
我们上面的“无欲”模拟也符合这一点。在这种情况下,一旦代理最小化了状态的不确定性 (即冰箱在 哪里),代理就不再有动力选择一个动作而不是另一个动作 (而只是随机选择一个动作)。在“强烈欲望”模拟中也可以看到类似的结果,其中代理一旦找到冰淇淋就没有动力选择不同的动作 (即 它只是留在冰箱里)。因此,尽管p(oτ )中关于主体期望的事物类型的事实保持不变,但与短暂的欲望感觉 相关的动机驱动力不再存在 (即,如政策选择中所体现的那样)。
另一个潜在的担忧是关于预期自由能中的“模糊性”(即信息寻求)项。在这种情况下,从某种意义上说,智能体似乎确实被迫收集信息并最大程度地减少不确定性(人类和其他动物也是如此;参见 Berger‑ Tal 等人, 2014 年; Mirza 等人, 2018 年; Schulz ) & Gershman, 2019; Schwartenbecketal.,(2019; Wilson et al., 2014, 2021)。在大多数情况下,这有助于减少如何实现预期结果的不确定性。但 是,如果偏好分布设置为零 (如我们的“无欲望”模拟),即使没有比任何其他结果更理想的结果,主动推 理代理仍将被迫选择能够最大化信息增益的行为。虽然这可能被合理地视为动机影响,但它是表面上看,它 不太可能被认为是意动的,因此最好将其视为一种信念驱动力。
因此,在这里,可能会帮助我们恢复并潜在地细微差别欲望和好奇心之间的民间心理区别。这些 类型的驱动器似乎有根本的不同。例如,欲望的对象是某种特定的预先设想的事态 (即,一个人可以说不能 渴望他们不知道的东西)。相比之下,好奇心反而驱使人们发现未知的事物,因此没有预先设定的目标。然而,关于好奇心不是意动的说法可能看起来很可疑,因为它也可以被简单地描述为学习的欲望 而这反过来 又可以被理解为一个人的信念尽可能精确的愿望 (即,人们对自己的信仰尽可能有信心的愿望)。然而,数学使我们能够在这里激发真正的区别。具体来说,改变结果以最小化预期自由能中风险项的 KL 散度与最小 化 “模糊性”项是完全不同的过程。后者并不 “关心”不确定性如何解决,只要当它被解决时(即,没有额外的偏好对一种可能的信念比另一种可能的信念更有信心)。至少,好奇心 的民间心理学概念对应于一种非常不同类型的欲望 (在 dAI 中有一个独特的对应物)。正如我们在下 一节中所讨论的,虽然人们可能认为信息寻求的驱动力是非意动性的,但观察自己成功满足好奇心可以 引发积极的情感状态,这似乎是合理的 而且似乎与民间心理学一致。
如上所述,另一个有趣的点涉及最近关于预测处理和自由能框架内情感状态可能相关的提议(Hesp 等人, 2021 年; Joffily 和 Coricelli, 2013 年; Smith 等人, 2019a, 2019b; Van deCruys, 2017),这表明情感状态和反应对应于特定类型和不确定性水平 (的变化)。 dAI 文献中 最新且经过彻底开发的提案将情感反应与预期自由能 γ(通过其超参数 β)的精确估计的更新联系起 来。如上所述,当新的观察结果支持当前正在推行的政策时[即,当新的观察结果与G(π) 一致时],γ 增加,这可以作为该提案下积极情感状态的证据(反之亦然,如果新的观察结果与 G(π) 一致)观察结果 可作为反对现行政策的证据)。γ 的增加可以增强主体对预期自由能信念的信心,从而有效地降低习 惯的激励力量E(π)。这是有道理的,因为当最佳决策的不确定性很高时,代理应该主要依靠习惯(即过 去有效的方法)。如前所述,这与计算神经科学中的其他工作有一些相似之处,即提出强化学习中基于 模型和无模型过程之间基于不确定性的竞争 (Daw 等人, 2005)。
图1中的“价态更新”面板描述了这些更新 (青色线表示稳定的更新精度值,黑色尖峰表示更新期间 的变化率),这与我们在这里有趣和有趣的愿望考虑有关。微妙的方式。例如,在上图中,智能体没有欲 望,在这种情况下,当它打开灯时,γ 不会发生变化。相反,当智能体确实想要冰淇淋时,打开灯会导致正 的 γ 更新(这里,在打开灯后,智能体对于如何获得它想要的东西变得更加自信)。在这种情况下,直觉 上认为,当代理人对如何实现其愿望更加有信心时,它会进入更积极的情感状态,但当打开灯对进一步的行动没有影响时则不会。然而有趣的是,在某些情况下,尽管缺乏期望的结果,γ 更新也可能是积极的,例如当观察结果为某人当前的政策提供证据以进一步最大化信息增益时 (例如,感觉良好,因为你 当前的计划继续进行)从而获得有关您所在位置的预期线索)。
在某些情况下,观察到的结果不会改变人们对政策预期自由能的信心。就目前而言,这种情况预计不 会产生情感上的变化状态。这与之前的模拟工作相联系,表明γ 更新再现的动态类似于强化学习研究中的多巴胺能奖励预测 错误(FitzGerald 等人, 2015 年; Friston 等人, 2014 年; Schwartenbeck 等人, 2015年)。在此背景下值得注意的是,其他研究也发现积极和消极的奖励预测错误分别与积极和消极的情绪变化相关(Eldar & Niv, 2015; Eldar et al., 2016, 2018; Mason etal., 2018)。 , 2017 年;Rutledge 等人, 2014 年)。众所周知,当奖励完全预期时,奖励预测错误就不会发生 (Schultz,2016)。因此,在强化学习任务的背景下,γ 更新显示出与奖励预测错误相同的动态,人们也可以预测,接 收完全预期的奖励不会改变情感状态6。
同样令人感兴趣的是 γ 更新可以改变的情况。尽管事后对如 何行动的信心增加,但仍持消极态度。一个例子是,如果一个人一开始对接近森林非常有信心,然后在看到意想不到的捕食者后很快就对逃跑的非常不同的策略充满信心。尽管在这种情况下对政策有精确的后验信念,但预测的负面影响是因为γ 更新并不跟踪政策本身的后验信心。相反,他们追踪对预期自由能 信念的信心。 G(π)分布形状发生巨大的、意想不到的变化(例如刚才提到的示例中从一个精确后验到另一 个精确后验)仍然会降低对预期自由能的置信度,从而导致负面影响。因此,在这些情况下,增加接近想要 的东西的信心可以产生积极的影响,而增加避免不想要的东西的信心可以 (至少在某些看似合理的情况 下)产生负面影响,这两者都与我们在本文中的论点一致。还要注意,在上面的例子中,自信回避期间的负 面影响直观上预计会比受到威胁但不确定如何逃脱时的负面影响相对不那么强烈 这也预计会在 dAI 下的许多情况下发生 (即,置信度)预期的自由能可能会显示出更强烈的下降)。而且,正如上面提到的, 在民间心理学中,就像在 dAI 中一样,尽管缺乏所需的特定目标观察,但增加对如何满足好奇心的信心可 以产生积极的影响(Kruglanski 等人, 2020)。
正如引言中所讨论的,值得强调的是,dAI 与术语“预测处理”不同,也与 FEP 不同。我们什么称为 dAI(主动推理的部分可观察马尔可夫决策过程公式)是 FEP 的推论,可以使用预测误差最小化方案,但 FEP 还有许多其他方面许多其他理论都属于预测处理的范畴。如果另一个提出了决策的预测处理理论,但不包括意动成分,对与民间心理学的紧张关系的担忧仍然存在对于这样的理论。然而,正如我们所表明的,这种担忧不应适用于最小化预期自由能的决策过程,也不应用于不建模决策的感知或运动控制的预测处理理论制作。总而言之,主动推理框架中有信念和欲望。因此,民间心理学并没有使主动推理变得不那么可信,主动推理也没有因此而变得不那么可信。推理有可能消除民间心理学(BDI)模型中的任何元素。尽管本文的主要焦点不是基于神经科学的消除先天主义(例如,参见 Churcland1981;Dewhurst,2017),但值得强调的是,尽管与民间心理学一致,主动推理在生物学上显然是合理的,它可以重现经验测量的神经反应,并且它具有详细的神经过程理论(例如,参见 Friston 等人,2017a、2017b;Parr & Friston,2018a;帕尔等人,2020;怀特和史密斯,2021)。这意味着主动推理提供心理、算法和神经实现之间的映射描述的层次——提供一个大脑过程如何实现的例子民间心理过程,从而消除相关的担忧激励消除主义。这与贝叶斯大脑理论的论点形成鲜明对比与命题态度不一致(Dewhurst,2017)或者他们离开了中心无法解释的认知方面(Yon 等人,2020)
值得注意的是,我们只是笼统地谈论了使用生成模型来捕捉民间心理决策过程。从某种意义上说,这 已经足够了,因为就像上面的玩具模拟一样,人们可以简单地写下一个模型,定义有意识的代理人需要 解决的决策问题以及信念、欲望和意图的元素 (如以及其他影响 (如习惯和好奇心)也会出现。然而,从 另一种意义上说,我们还没有解决生成模型需要的结构问题,以便解释信念和欲望的经历。虽然我们这 里的重点不是意识体验的主题,但我们简要地注意到其他概念和形式建模工作已经开始解决这个主题。例如,在最近的两篇论文中,分层dAI 模型能够重现有意识与无意识感知期间根据经验观察到的神经反 应,并允许代理生成单词序列来报告其体验(Whyte & Smith, 2021; Whyte 等人) ., 2021)。在 这个模型中,假设民间心理学对应于能够支持持续足够长的时间尺度的表征的处理水平,以生成时间上扩展的、目标导向的计划并且这些表征根据具体情况有选择地更新。 ‑sion 分配给一些比其他表示更低级别的表示。如果一个人假设,就像意识的元表征理论(例如高阶思想理论;例如,Rosenthal, 1986)一样,体验欲望需要以类似的方式表征这些欲望 (即,作为状态,使得它们是以与有意识的信念相 同的方式报告),这将要求它们也从较低级别的表征中推断出来,并对这些表征产生向下的影响。例如, 对愿望的明确表示可以生成对政策、首选结果和精度的较低级别优先级的特定配置文件,从而推动政策 选择来满足该愿望(有关此类结构的示例,请参阅 Pezzulo等人, 2018)。这种设置将使代理能够识 别它想要什么,并部署适当的经验先验作为识别过程的一部分。这只是最近在主动推理中捕获有意识的、 个人层面的过程的一些尝试的一个例子,其中许多尝试同样强调层次推理、认知行动的必要性 (例如,通过控制感觉精度来选择性注意)。作为内感受/情感因素(例如,参见 Clark 等人, 2019;Limanowski 和 Friston, 2018; Nikolova 等人, 2021; Smith 等人, 2019a; Vilas等人,2021)。如上所述,我们在本文中的论点并未解决生成模型支持个人层面过程的充分条件。相反, 我们证明了信念、欲望和意图的必要元素在任何这样的模型中都是可以识别的。我们不会进一步讨论这一 点,但在此强调它作为未来工作的重要方向。
在得出结论之前,我们注意到上述考虑因素也有可能推广到 FEP 描述的其他系统 (即民间心理学在任何 直观或直接的意义上都不适用于这些系统)。具体来说,尽管以民间心理学为特征的欲望是特定于形成意 图的决策者的事实,但 FEP 确实更普遍地包括具有“类信念”和“类欲望”契合方向的元素 (即,分别是心 灵对世界和世界对心灵)。粗略地说,在任何表现得好像正在执行变分推理以得出近似后验q(s) 的系统中,该后验(或识别模型)起着 类似信念的功能作用,而生成模型隐含在这些“作为如果“变分动力学p(o,s)可以通过限制系统的动力学 并将其 “吸引”到某些状态而不是其他状态来充当控制机制 (Ramstead 等人, 2020b),从而发挥欲望‑喜欢角色。
保持该方程中o的值恒定, F随着近似后验分布q(s)接近真实后验p(so) 而减小。因此, q (s)项具有直 接的类似信念的、心灵与世界的拟合方向,因为它的值会发生变化以适应新的观察。相反, F也会通过最大 化lnp(o) 而减小,这(假设固定的生成或非平衡稳态密度),需要改变观察。因此, lnp (o)项具有从世界到心灵的拟合方向。在上面的例子中,设定点对应 于lnp(o),并且最大化lnp(o)可以被视为生物体的内置“驱动力”。相比之下,在这些示例中跟踪与最大化lnp(o)相关的信息的内部状态,例如有关增加营养素的方向或来源的信息阳光的强度,对应于q(s)。因此,对于 FEP 描述的任何生物体,这描述将包含关于有机体“应该”处于的状态的隐含规范元素,并且可以被描述为具有意动的、“类似 欲望”的方向适合。也就是说,即使超出了前瞻性...