Deepmind 研究人员提出标准化测试套件 (STS)：一种用于评估经过训练可在 3D 虚拟世界中与参与者交互的智能体的新方法

人工智能研究的目标一直是创造能够与人类自然互动的智能体。然而，评估这些相互作用变得越来越困难。收集在线人机交互既费时又费钱，而且更快的代理测量通常与交互式评估不能很好地对应。在最近的一份出版物中，谷歌的 DeepMind 提供了一种新的评估技术，称为标准化测试套件 (STS)，以便更深入地探索这项研究。此外，该团队深入研究了现有评估标准的优势。 STS 采用源自现实世界人类互动的行为情境。智能体可以检查回放的场景上下文，接收指令，然后控制交互以离线执行。这些智能体会被连续地记录并提交给人工标注，人工将它们评定为成功或不成功，智能体根据他们连续成功的百分比进行排名。生成的 STS 在模拟自然交互方面是快速、精确、可解释和准确的。总体而言，STS 结合了所需的大部分常用评估参数，使研究人员能够在创建可以与人类自然交互的智能体方面取得更快的进展。
为了训练与人类互动良好的智能体，需要能够跟踪发展。另一方面，人的参与很复杂，评估进展也很困难。根据 DeepMind 期刊中的描述，标准化测试套件 (STS) 是 DeepMind 研究人员建立的一种工具，用于在时间延长的多模式交互中评估智能体。参与者指示智能体在 3D 模拟环境中执行任务并回答问题，同时对交互进行评估。 STS 将智能体置于源自现实世界人类交互数据的各种行为情境中。人工评估者连续地对这些智能体做记录，并将它们标注为成功或失败。然后根据智能体完成的情况对其进行排名。人类的日常行为对他们来说是很难描述的第二天性，也无法正式化。因此，当智能体被教导与人进行流畅且成功的互动时，以前研究人员用来解决游戏的强化学习方法将不起作用。这可以通过以下两个问题来说明：“谁赢了这场围棋？” “你在看什么？” 在第一种情况下，可以编写一个代码，在游戏结束时计算棋盘上的棋子并准确识别获胜者。在第二种情况下，这个问题没有明确的回答，人们意识到可以从很多方面回答这种问题。

图片来源: https://arxiv.org/pdf/2205.13274.pdf
人类参与者可以在交互式环境中评估智能体性能。然而，这既麻烦又昂贵。当人们与智能体进行交互以进行评估时，很难跟踪他们提供给智能体的确切指令。这种类型的评估过于缓慢，无法快速实时推进。在交互式评估方面，以前的研究依赖于代理。损失和脚本化的探测任务对于快速将知识传递给智能体是有效的，但它们与交互式评估的响应并不好。推荐的新方法有几个好处。最重要的是，它为指标提供了可控性和速度，这与 DeepMind 的目标是创建与人成功交互的智能体趋于一致。机器学习极大地受益于 MNIST、ImageNet 和其他人工标注数据集的开发。研究人员能够使用这些数据集训练和测试分类模型，投入一次性的人工成本。 STS 方法旨在为人机交互研究实现相同的结果。这种类型的评估仍然需要人工持续地标注智能体；然而，早期的试验表明这些标注可以自动化，从而可以快速和成功地自动评估交互式智能体.据研究人员称，其他研究人员可以利用该团队的方法和系统设计来加快他们在该领域的研究并确定新的领域。