快捷搜索:  汽车  科技

deepmind团队提出神经图(让机器思考与互相理解)

deepmind团队提出神经图(让机器思考与互相理解)章节 3.5 中,我们展示了能够训练 ToMnet 来预测智能体的信念状态,明确揭开智能体的错误信念。我们也展示了 ToMnet 能单独从行为中推断什么智能体具有观看的能力,以及因此它们倾向于相信什么。章节 3.4 中,我们展示了当在 POMDP 中活动的深度强化学习智能体上训练 ToMnet 时,它暗中学习到这些智能体能持有该世界的错误信念,这也是人类心智理论的核心。章节 3.1 中,我们展示了对简单、随机的智能体而言,ToMnet 能学习逼近贝叶斯优化的层级推理到智能体的特性;章节 3.2 中,我们展示了 ToMnet 学习推理算法智能体的目标(有效完成了 few-shot 逆强化学习),以及它们如何平衡成本与奖励。章节 3.3 中,我们展示了 ToMnet 学习表示不同类型的深度强化学习智能体,掌握深度强化学习智能体不同变体的关键元素,并组成这些智能体的抽象嵌入(abstract e

AI 不仅需要判断,也需要具备思考问题的能力。真正的人工智能应该和人类一样,可以理解自己以及周围智能体的心理状态,这些状态包括情绪、新年、意图、欲望、假装与知识等。DeepMind 近日提出的「机器心智理论」神经网络 ToMnet 让计算机拥有了这种能力,这或许是我们在人工智能技术上的一次重要进步。

简介

对于现在所有的深度学习和深度强化学习方法而言,我们有一个担忧的问题:从某些方面来说,我们对这些系统的理解非常有限。神经网络经常被说成是难以理解、难以解释的黑箱子。即使我们对其权重有完整的解释,还是很难掌控它们到底利用了什么模式,也很难掌控哪里会出问题。随着智能体进入人类世界,要求理解这些系统的声音变得越来越大。

让我们先停下来,思考另一个问题:「理解」另一个智能体到底意味着什么?作为人类,我们每天都在面临这项挑战,我们与他人交流合作,但几乎无法触及这些人的内隐特征、内隐状态和计算过程。但我们还是用卓越的熟练度来行使职责。我们可以预测陌生人将来的行为,并且推断他们对世界的观点;我们规划与其他人的互动,并且建立高效的交流。

  • 章节 3.1 中,我们展示了对简单、随机的智能体而言,ToMnet 能学习逼近贝叶斯优化的层级推理到智能体的特性;

  • 章节 3.2 中,我们展示了 ToMnet 学习推理算法智能体的目标(有效完成了 few-shot 逆强化学习),以及它们如何平衡成本与奖励。

  • 章节 3.3 中,我们展示了 ToMnet 学习表示不同类型的深度强化学习智能体,掌握深度强化学习智能体不同变体的关键元素,并组成这些智能体的抽象嵌入(abstract embeddings)。我们也展示了 ToMnet 能发现行为空间新的抽象。

  • 章节 3.4 中,我们展示了当在 POMDP 中活动的深度强化学习智能体上训练 ToMnet 时,它暗中学习到这些智能体能持有该世界的错误信念,这也是人类心智理论的核心。

  • 章节 3.5 中,我们展示了能够训练 ToMnet 来预测智能体的信念状态,明确揭开智能体的错误信念。我们也展示了 ToMnet 能单独从行为中推断什么智能体具有观看的能力,以及因此它们倾向于相信什么。

  • deepmind团队提出神经图(让机器思考与互相理解)(1)

    图 1. ToMnet 架构。

    character net 从 POMDP 集合中解析智能体过去的轨迹,从而形成 character 嵌入 e_char。心理状态网络解析当前片段的智能体轨迹,形成心理状态嵌入 e_mental。然后,这些嵌入被输入至预测网络,可用于查询当前状态。预测网络输出对智能体未来行为的预测,如下一步动作概率 π hat、特定对象被消耗的概率 c hat 和预测后继者表示 SR hat(Dayan 1993)。

    deepmind团队提出神经图(让机器思考与互相理解)(2)

    图 4. 目标驱动智能体上的 ToMnet。

    (a)示例智能体之前的轨迹。彩色方块代表四个对象。红色箭头表示智能体的位置和动作。(b)查询示例:来自新 MDP 的状态。黑点代表智能体位置。(c)基于(a)中对之前轨迹的观测,针对(b)中的查询 MDP,ToMnet 对智能体下一个动作的预测(上方)和对该片段结束时对象是否被消耗的预测(下方)。(d)ToMnet 使用折扣因子 γ = 0.9,对(b)中查询的后继者表示(successor representation,SR)的预测。黑色部分表示更高的期望折扣状态占用。

    deepmind团队提出神经图(让机器思考与互相理解)(3)

    图 7. 使用 ToMnet 描述训练的神经网络智能体。

    (a)ToMnet 的三个组件分别对应三个行为预测目标,图中表示简单 ToMnet 与没有 character net 或没有 mental net 的网络的对比。长条越长越好;具备 character net 和 mental net 的网络最好。(b)查询 POMDP 状态在时间 t = 0 时,ToMnet 对智能体未来状态占用的预测(左),如图 4d 所示。星星表示子目标。右边的三幅图根据每个亚种的示例智能体在 N_past = 5 past POMDPs 上的行为输出(示例智能体通常指粉色对象)。ToMnet 事先并不了解每个智能体属于哪个亚种,但是可以根据智能体之前的行为推断出来。

    deepmind团队提出神经图(让机器思考与互相理解)(4)

    图 13. 信念的监督式预测。

    论文:Machine Theory of Mind

    deepmind团队提出神经图(让机器思考与互相理解)(5)

    论文链接:https://arxiv.org/abs/1802.07740

    摘要:心智理论(ToM; Premack & Woodruff 1978)广义上指个体有能力理解他人的心理状态,包括期望、信念和意图。我们提出对机器进行训练,使之也具备这项能力。我们设计了一种心智理论神经网络 ToMnet,它使用元学习通过观察智能体的行为而对它们进行建模。通过该过程,该网络得到一个对智能体行为具备强大先验知识的模型,同时能够利用少量行为观测对智能体特征和心理状态进行更丰富的预测。我们将 ToMnet 应用于在 gridworld 环境中采取动作的智能体,结果表明该网络学会对来自不同群体的智能体进行建模,包括随机、规则系统和深度强化学习智能体等,该网络通过了经典的 ToM 任务,如"Sally-Anne"测试,即意识到他人持有的错误观念。我们认为该系统(自动学习如何对出现在其世界中的其他智能体进行建模)是开发多智能体 AI 系统的重要步骤,可以帮助构建人机交互的中介技术,推进可解释性 AI 的发展。

    猜您喜欢: