
近年来,强化学习在游戏智能体、具身智能、大语言模型等领域取得了显著进展。然而,在真实世界中,强化学习仍面临一个核心难题:高质量样本的获取不仅成本高昂,还可能带来多种风险。因此,样本增强成为缓解强化学习中样本获取成本高、风险大等问题的重要途径之一。
近年来,受扩散模型其强大分布建模能力的启发,研究者们提出了基于扩散模型的样本增强方法(代表方法是 SynthER [1]),通过合成高保真样本实现训练数据的扩充。
然而,合成样本虽然符合真实环境动态,但未必最助于智能体的策略学习。为了更清楚地展示这一局限性,论文采用经典离线],在合成样本集上训练智能体并评估其表现。实验在 Hopper 环境中的 medium-expert 样本集上进行。该样本集由 D4RL 基准 [3] 提供,包含约 200 万条直接从环境中预先采集的样本。合成样本集由 SynthER 合成所得,其规模设置为从 10 万条到 500 万条不等。
从图中可以看出,只有当合成样本集的规模远大于原始样本集时,合成样本才有可能充分覆盖高质量样本区域,并进一步获得相应的策略性能提升。这一观察揭示了当前基于扩散模型的样本增强方法所面临的局限性:其样本合成过程缺乏有效的可控机制,因而难以优先合成对策略学习更有价值的高质量样本。
针对这一局限性,浙江理工大学马啸讲师与南京大学李武军教授课题组联合提出了一种高效样本合成方法 EMCES。EMCES 将情景记忆机制引入可控扩散模型,并利用情景记忆机制引导高质量样本的合成,从而进一步提升下游强化学习算法的表现。
EMCES 是首个将情景记忆引入可控扩散模型,并利用情景记忆指导强化学习样本合成的工作。此外,论文提出了基于哈希的状态表示方法,以提升情景记忆机制的存储效率和检索效率。实验结果表明,在不损失下游强化学习算法表现的情况下,在存储开销上比已有的状态表示方法降低约 8000 倍,在时间开销上比已有的状态表示方法降低 25.5 倍。
该论文已被 ICML2026 录用。南京大学李武军教授为通讯作者,浙江理工大学马啸讲师为第一作者,南京大学硕士生李天为参与作者。
情景记忆在人类大脑中发挥着重要作用,是人类快速学习与高效经验利用的重要基础。受此启发,在强化学习中,情景记忆能够存储、整合并检索有价值的历史经验,使智能体可以直接访问高质量的过往经验信息,从而提升强化学习算法的样本效率。
基于这一思想,EMCES 利用情景记忆存储历史经验中的高价值信息,为可控扩散模型设计控制条件,并引导可控扩散模型合成更高质量的样本。具体而言,EMCES 包含三个关键组件:基于情景记忆的可控扩散模型、基于情景记忆时序差分误差的优先条件采样策略,以及基于哈希表示的情景记忆机制。
的样本分布,论文训练了一个可控扩散模型,并通过求解如下优化问题学习数据分布:
样本的可控合成在很大程度上依赖于条件的设计质量。合理设计的条件决定了可能的动作必须被纳入条件
能够使模型合成符合目标语义以及环境动力学规律的样本。因此,条件应被精心设计,以充分编码目标样本中的关键信息,从而保证模型能够合成期望样本。同时,为兼顾训练效率与生成质量,条件表示应在保持充分信息量的基础上尽可能紧凑。由于状态
然而,直接使用状态可能会降低可控扩散模型的训练效率。这是因为原始状态通常包含大量冗余信息,尤其是在高维视觉状态场景中,这一问题更为突出。为此,论文采用一个简单且紧凑的状态表示函数进行编码,并将编码后的状态表示作为条件输入的一部分,从而在保留关键状态信息的同时提升模型训练效率。
在保证条件表示紧凑性的同时,条件还应尽可能捕获更丰富的上下文信息,例如对应的动作、奖励、下一状态以及潜在的未来回报。为在信息量和紧凑性之间取得平衡,EMCES 考虑使用状态-动作价值函数
。该项可完美融合动作、奖励、下一状态和潜在未来回报等多项关键信息,从而为可控扩散模型提供更具指导性的条件信号。传统状态-动作价值函数通常依赖神经网络进行估计,这不仅需要额外训练,也容易受到训练不稳定问题的影响。
是从情景记忆中检索得到的。情景记忆的构造与检索细节详见原论文。该项能够隐式刻画样本中的关键元素及其潜在的最优未来回报,从而为可控扩散模型生成高质量样本提供有效的条件引导。因此,论文将该模型称为基于情景记忆的可控扩散模型。
尽管基于情景记忆的可控扩散模型可以直接用于合成样本,但其核心优势在于能够以可控方式合成高质量样本。直观而言,样本合成过程不仅应当符合底层样本分布,还应进一步优先合成对智能体策略学习更有价值的样本。
之间的偏差。因此,EMTD-误差可以作为衡量该样本对策略改进的潜在价值。较大的 EMTD-误差意味着与已有的历史经验相比,该样本可能带来更高回报,因此对策略改进更具价值。
时,该采样策略退化为均匀采样。因此,这一采样策略不仅能够引导基于情景记忆的可控扩散模型合成高质量样本,同时保持样本多样性,从而支撑更加稳健的策略学习。
表示编码长度。随后,每个投影维度通过符号函数可量化为 0 或 1。关于投影函数的学习,论文采用李武军教授提出的哈希学习方法 IsoHash [4] 来完成。由于哈希编码是从数据分布中学习得到的,因此能更好地与状态空间的底层结构对齐,从而减少无关状态之间的混淆。此外,基于哈希的状态表示通过将相似状态赋予相同的哈希编码,可以帮助情景记忆机制隐式合并多条轨迹,进而构建更加高质量的情景记忆机制。该状态表示也为基于情景记忆的可控扩散模型提供了紧凑且充分的条件。
对于情景记忆机制,论文沿用团队前期工作 [5] 中的实现方式,即 KD-树。其对应的存储复杂度、检索时间复杂度和构建时间复杂度分别为:
的取值影响,如下表所示。可以发现,基于哈希的状态表示可以有效降低情景记忆对应的存储复杂度、检索时间复杂度和构建时间复杂度。
为验证 EMCES 的有效性,论文分别在离线强化学习和在线强化学习设置下进行实验。首先是在离线强化学习设置下,论文从 D4RL 基准中选取 HalfCheetah、Walker2d、Hopper 和 Maze2D 作为实验环境,选取 TD3+BC、IQL 和 EDAC 三种代表性离线强化学习算法对合成样本集的质量进行评估。下表中的结果表明,EMCES 在多数任务中提升了下游算法表现,并且合成样本训练效果经常达到甚至超过原始样本集训练效果(原论文表 1)。
论文还对情景记忆中的状态表示方法进行了讨论。论文在表(原论文表 4)中总结了 EMCES 在不同状态表示下的归一化分数,括号中的数字表示 EMCES 在不同状态表示下相较于 SynthER 所取得的归一化分数提升。为了公平比较,所有实验在一台配备 36 核 72 线程 Intel Xeon Gold 6240 CPU @ 2.60GHz、377 GB 内存和 8 块 NVIDIA GeForce RTX2080Ti GPU 的工作站上进行。如下表所示,EMCES 在不同状态表示下均取得了优于 SynthER 的表现。
这一结果验证了 EMCES 整体框架的有效性。同时,下表汇报了在不同状态表示下,建立情景记忆机制所需的存储成本和时间成本,其中时间成本同时包括检索时间成本和构建时间成本。可以发现,基于哈希的状态表示和基于网格的状态表示均能显著降低存储和时间成本。与基于随机投影的状态表示相比,在不损失归一化分数的情况下,基于哈希的状态表示将存储成本降低了约 8000 倍,将时间成本降低了约 25.5 倍。此外,论文还对可控扩散模型的条件设计、采样策略的设计进行了消融实验,更多讨论可见原文。
合成过程强可控:EMCES 将情景记忆机制引入可控扩散模型中,通过情景记忆机制构造条件,引导扩散模型合成与目标任务更相关的样本,从而提升了样本增强的可控性;
合成样本质量高:EMCES 利用情景记忆时序差分误差评估样本对于策略学习的潜在价值,并在采样过程中优先关注更具潜在价值的样本区域,从而合成高质量样本;
情景记忆高效性:采用基于哈希的状态表示后,情景记忆机制能够在不损失下游强化学习算法表现的情况下,在存储开销上比已有的状态表示方法降低约 8000 倍,在时间开销上比已有的状态表示方法降低 25.5 倍。