RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

1. 引言:让 LLM Agent 在交互中自我进化

将 LLM 训练为能够在交互式环境中自主行动的 Agent,面临着与静态任务(如数学推理、代码生成)截然不同的挑战。Agent 需要多轮序列决策跨 turn 的记忆维持以及对环境随机反馈的适应能力——这些在传统的单轮 RL 训练范式中几乎不存在。

尽管近年来的 RL 方法(如 PPO、GRPO、DAPO 等)在单轮推理任务上取得了显著进展,但一个关键问题仍未得到系统性回答:什么设计因素能让自我进化的 LLM Agent 在交互式、随机环境中有效且稳定地学习?

为此,作者提出了 StarPOState-Thinking-Actions-Reward Policy Optimization)——一个统一的多轮、轨迹级 Agent 训练框架,并在此基础上构建了 RAGENReasoning AGENt),一个模块化的 Agent RL 训练与评估系统。

RAGEN teaser
图1:RAGEN 概览。以往方法聚焦于数学、编程等非交互式任务;RAGEN 通过 StarPO 框架实现多轮 rollout、轨迹级奖励分配与策略更新,支持多轮随机交互中的 Agent RL 训练。

1.1 实验环境:从符号推理到真实 Web 交互

为系统研究 Agent RL 的学习动态,作者构建了四个跨越不同复杂度的环境:

环境 交互轮次 随机性 特点
Bandit单轮风险敏感的符号推理,低风险臂 vs 高风险高收益臂
Sokoban多轮不可逆的推箱子规划,需要前瞻性多步推理
Frozen Lake多轮滑冰到达目标,每步有 2/3 概率发生侧滑——同时具有多轮和随机性
WebShop多轮真实世界在线购物任务,需要自然语言理解和网页交互

前三个环境是极简且完全可控的符号环境,剥离了真实世界的先验知识,让研究者可以干净地分析 Agent 推理能力的涌现与退化。WebShop 则引入了真实的任务结构和语言输入。

1.2 三大核心发现预览

通过 RAGEN 的系统性实验,作者揭示了 Agent RL 训练中的三个核心发现:

  1. 梯度稳定性是多轮 RL 稳定训练的关键。多轮 RL 训练经常出现一种名为 Echo Trap(回声陷阱)的周期性不稳定模式——Agent 过拟合到局部奖励最优的推理模板,表现为 reward 方差坍塌、输出熵骤降和梯度范数尖峰。为此,提出了 StarPO-S 稳定化方案。
  2. Rollout 的频率与多样性塑造了自我进化。Agent RL 中,模型自生成的 rollout 轨迹是核心训练材料。关键的 rollout 因素包括:(a) 多样的初始状态 + 每状态多个响应来实现有效对比;(b) 每 turn 多个动作来扩展交互深度;(c) 高频的 rollout 更新以保证数据反映最新策略。
  3. Agent 推理的涌现需要精心设计的奖励信号。仅仅在输出格式中鼓励推理(如 <think> 标签)并不保证推理行为会被保留。如果奖励仅关注任务最终成功,模型往往会退化到直接动作选择,甚至产生幻觉推理(推理内容与环境状态不一致但仍获高奖励)。

2. 框架:StarPO 与 RAGEN

2.1 从单轮 RL 到多轮 MDP 形式化

传统的 LLM RL 方法假设单轮设置:最大化数据集 \(\mathcal{D}\) 上 prompt-response 对 \((s, a)\) 的期望奖励:

$$ J_{\text{step}}(\theta) = \mathbb{E}_{s \sim \mathcal{D}, a \sim \pi_\theta(\cdot|s)}[R(s, a)] $$

但 LLM Agent 必须在多轮交互环境随机性中运作。为捕捉这些动态,作者将问题形式化为 Markov Decision Process (MDP) \(\mathcal{M} = \{S, A, P\}\):

  • \(S\):状态空间(观测序列或交互历史)
  • \(A\):动作空间(token 序列)
  • \(P\):转移动态与奖励生成过程

在每个时间步 \(t\),策略 \(\pi_\theta\) 基于当前状态和交互历史生成动作,环境返回奖励和新状态:

$$ a_t \sim \pi_\theta(\cdot | s_t, \tau_{其中 \(\tau_{\lt t} = \{s_0, a_0, r_0, ..., s_{t-1}, a_{t-1}, r_{t-1}\}\) 为交互历史。整个过程持续最大 horizon \(K\),产生完整轨迹 \(\tau = \{s_0, a_0, r_0, ..., s_K\}\)。

2.2 StarPO:轨迹级推理-交互策略优化

StarPO 的核心创新在于将整个多轮交互轨迹——包括观测、推理过程、动作和环境反馈——视为统一的优化单元。目标为最大化期望轨迹奖励:

$$ J_{\text{StarPO}}(\theta) = \mathbb{E}_{\mathcal{M}, \tau \sim \pi_{\theta}} \left[R(\tau) \right] $$
📐 StarPO vs 传统方法的本质区别

传统方法(PPO / GRPO):
\(J_{\text{step}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta(\cdot|x)}\left[ R(x, y) \right]\)
→ 优化单轮输出 \(y\) 给定输入 \(x\)

StarPO(本工作):
\(J_{\text{StarPO}}(\theta) = \mathbb{E}_{\mathcal{M}, \tau \sim \pi_\theta}\left[ R(\tau) \right]\)
→ 优化完整轨迹 \(\tau = \{s_0, a_0, r_0, \dots, s_K\}\) 的总奖励
StarPO framework
图2:StarPO 框架。LLM 生成推理引导的动作与环境进行多轮交互,累积轨迹级奖励,经归一化后用于策略更新。

2.3 优化流程:从推理-交互轨迹中学习

在每个训练迭代中,Agent 从初始状态 \(s_0\) 出发,生成 \(N\) 条轨迹。每一步产生推理引导的结构化输出:

$$ a^T_t = \texttt{}...\texttt{}~a_t~\texttt{} $$

其中 \(a^T_t\) 是包含中间推理的完整动作输出,\(a_t\) 是环境可执行的子动作序列。环境返回下一状态 \(s_{t+1}\) 和奖励 \(r_t\)。StarPO 交替执行 rollout 和 update 阶段,每个训练循环包含 \(P\) 个初始状态,每个状态生成 \(N\) 条轨迹,batch size \(E\),共 \(L\) 个循环,产生 \(S = \frac{L \cdot P \cdot N}{E}\) 次梯度更新。

2.4 模块化优化策略:PPO 与 GRPO

StarPO 在统一的轨迹级抽象下支持多种策略优化算法。对于每条 rollout 轨迹 \(\tau_i\)(共 \(|\tau_i|\) 个 token),token 级更新如下:

PPO(带 Critic):训练一个 Critic 网络估计 token 级价值 \(V\) 和优势 \(A_{i,t}\):

$$ \small J_{\text{PPO}}(\theta) = \frac{1}{G} \sum_{i=1}^G \frac{1}{|\tau_i|} \sum_{t=1}^{|\tau_i|} \min \left[ \frac{\pi_\theta(\tau_{i,(t)}|\tau_{i,GRPO(无 Critic):为每条轨迹分配标量奖励 \(R(\tau_i)\),在组内归一化:

$$ \small \hat{A}_{i,t} = \frac{R(\tau_i) - \text{mean}(\{R(\tau_1), \ldots, R(\tau_G)\})} {\text{std}(\{R(\tau_1), \ldots, R(\tau_G)\})} $$ $$ \small J_{\text{GRPO}}(\theta) = \frac{1}{G} \sum_{i=1}^G \frac{1}{|\tau_i|} \sum_{t=1}^{|\tau_i|} \min \left[ \frac{\pi_\theta(\tau_{i,(t)}|\tau_{i,2.5 RAGEN 系统

为在实践中实现 StarPO,作者构建了 RAGEN——一个完整的 LLM Agent 训练与评估系统。RAGEN 支持结构化 rollout、可定制奖励函数、与多轮随机环境的集成,既是 StarPO 的执行后端,也是研究 Agent RL 稳定性、泛化能力和学习动态的平台。RAGEN 设计上具有可扩展性:新的环境、奖励方案或 rollout 策略可以轻松接入。


3. 实验设置

3.1 环境与任务

四个评估环境覆盖了从符号推理到真实语言交互的决策挑战谱系(详见 1.1 节表格)。前三个符号化环境极简且完全可控,适合干净的分析;WebShop 则测试在现实场景中的泛化能力。

3.2 训练设置

主要实验使用 Qwen-2.5 Instruct 0.5B 模型训练三个符号化任务,使用 3B 变体训练 WebShop。模型在 H100 GPU 上用 StarPO 变体训练 100–200 个 rollout–update 迭代。每 batch 采样 \(P = 8\) 个 prompt,每个 prompt 生成 \(N = 16\) 条 rollout,最多 5 个 turn 和 10 个动作。策略更新使用 GRPO 或 PPO with GAE(\(\gamma = 1.0, \lambda = 1.0\)),Adam 优化器,熵奖励(\(\beta = 0.001\)),响应格式惩罚(\(-0.1\))。

3.3 评估指标

在 256 个固定 prompt 上以 temperature \(T = 0.5\) 评估,最多 5 turn 后截断。指标包括:

  • 成功率(Success Rate):任务完成比例
  • Rollout 熵(Rollout Entropy):衡量探索行为的多样性
  • 组内奖励方差(In-Group Reward Variability):衡量行为多样性
  • 响应长度(Response Length):衡量推理的详细程度
  • 梯度范数(Gradient Norm):监控训练稳定性

4.1 多轮 Agent RL 引入的新型不稳定性

4.1.1 StarPO 基线表现:初期提升,终归坍塌

首先在四个环境下评估基线 StarPO(PPO 和 GRPO 变体)的表现。

PPO vs GRPO baseline
图3:基线 StarPO 在四个环境上的表现。符号任务 Bandit 和 Sokoban 出现坍塌,而真实世界任务 WebShop 起点较高且快速提升。PPO 在 Bandit/Sokoban 上更强(Critic 提供更稳定的 token 级奖励信号),GRPO 在 FrozenLake(状态值难以估计)和 WebShop(初始表现强,不需要 Critic)上更强。

关键观察:

  • Bandit 和 Sokoban 上,所有方法初期提升后最终坍塌。PPO 比 GRPO 更稳定——Critic 提供的平滑价值估计延缓了崩溃。
  • Frozen Lake 上,GRPO 反而比 PPO 更稳定——高随机性使得 Critic 难以准确估计状态价值,反而可能引入噪声。
  • WebShop 上,两种方法均成功——强大的语言先验和高初始奖励降低了对 Critic 的依赖。
🔑 Finding 1:单轮 RL 方法不能直接适配多轮 Agent RL
将 PPO / GRPO 原样迁移到多轮 Agent 场景,初期可以获得提升但最终往往坍塌。PPO 的 Critic 可能延缓不稳定,但不能阻止推理退化——这突显了为 Agent 场景设计专门的稳定化方案的迫切需求。

4.1.2 Echo Trap(回声陷阱):坍塌的本质

为理解坍塌的原因,作者对比了训练早期和晚期的轨迹。在 Bandit 任务中:

  • 早期轨迹(Step 0):模型展现出关于符号意义和期望奖励的多样化推理
    "Dragon is often associated with patience, strength, and reliability, while Phoenix is associated with speed, agility, and creativity..."
  • 晚期轨迹(Step 150):推理退化为确定性、重复的模板
    "My initial intention is to pick arm Dragon. My first action is to go for arm Dragon."

作者称这种失败模式为 "Echo Trap"(回声陷阱)——RL 训练过度放大了固有的推理捷径,强化了局部奖励最优的模板,同时压制了探索行为。模型在自生成的轨迹上反复回响已记忆的推理路径,导致多样性坍塌和长期性能退化。

🔑 Finding 2:Agent RL 中的模型坍塌表现为 "Echo Trap"
早期 Agent 产生多样化的符号推理,但训练后坍塌为确定性、重复的模板。模型收敛到固定表述,表明 RL 可能在强化表面模式而非泛化推理,形成了阻碍长期泛化的 Echo Trap。

4.1.3 坍塌的诊断与预警指标

为系统地检测和预测坍塌,作者跟踪了两类指标:

  • 直接信号(确认坍塌已发生):平均奖励(平台期或下降)和梯度范数(尖峰表示不稳定更新)
  • 早期预警信号(坍塌前兆):Rollout 奖励标准差(Reward Std)和输出熵(Entropy)
Collapse indicators - direct Collapse indicators - early warning
图4:多轮 RL 中的坍塌指标与早期预警信号。左侧:平均奖励和梯度范数直接反映坍塌(平台期和尖峰确认表现与训练不稳定)。右侧:奖励标准差和熵往往在奖励退化之前就开始波动,可作为早期预警信号。

从数据中可以归纳出模型坍塌的发生规律

  1. Reward Std 是收敛的早期指标。在 FrozenLake-PPO 中,Std 在第 40 步急剧下降,远早于奖励均值在第 90 步的崩溃(此时表现仍接近最优)。在 Bandit-PPO 中,Std 在第 70 步触底,领先奖励峰值(第 120 步)。
  2. 梯度范数尖峰标志着不可逆的坍塌。一旦梯度尖峰出现——Bandit 第 170 步、Sokoban 第 110 步、FrozenLake 第 90 步——即使微小的参数更新也会引发剧烈的损失变化,之后恢复几乎不可能。
  3. 熵应呈现稳定下降趋势。FrozenLake-GRPO 展示了健康的缓慢熵减。而迅速的熵增或剧烈波动(如 Bandit-GRPO 和 Sokoban-GRPO)往往与坍塌的推理行为相关。
🔑 Finding 3:坍塌遵循相似的动力学,可通过指标预判
Reward StdEntropy 往往在表现退化之前波动,而梯度范数尖峰通常标志不可逆的坍塌点。这些指标提供了早期预警,也直接催生了稳定化策略 StarPO-S 的设计。

以上模式确认了多轮 RL 引入了单轮方法无法应对的独特挑战。作为回应,接下来介绍 StarPO-S——一个针对采样质量、梯度稳定性和探索正则化的稳定化变体。


4.2 StarPO-S:基于不确定性过滤与梯度塑形的稳定化训练

前述实验揭示了一个核心困境:将单轮 RL 方法(PPO / GRPO)直接迁移到多轮 Agent RL 中,初期可以获得提升,但最终往往会发生坍塌。坍塌的信号包括:Reward Std 骤降、输出熵崩塌、梯度范数尖峰——论文称这种失败模式为 "Echo Trap"(回声陷阱),即模型在自生成轨迹上反复强化局部最优的推理模板,丧失探索能力。

针对这一问题,作者提出 StarPO-S(StarPO Stabilized),一个在原 StarPO 框架上引入三项关键修改的稳定化变体:

  1. 不确定性驱动的实例过滤(Uncertainty-Based Instance Filtering):每步训练只保留 reward 方差最高的 top-\(p\%\) 的 prompt 实例。
  2. KL 惩罚项移除(KL Removal):从 PPO 损失中移除 KL 散度惩罚,仅依靠策略损失和熵奖励来塑形更新。
  3. 非对称裁剪(Decoupled Clipping / Clip-Higher):为高奖励轨迹设置更高的裁剪上界(如 \(\epsilon_\text{high} = 0.4\)),为低奖励轨迹设置更低的裁剪下界(\(\epsilon_\text{low} = 0.1\)),允许模型更激进地学习成功经验,同时不过度惩罚失败样本。

4.2.1 动机:不确定性驱动的主动学习

前文分析表明,Reward Std 的下降往往是坍塌的早期预警信号。作者由此提出一个直觉问题:是否应该让 agent 更多地在"行为不确定"的任务实例上训练?这与主动学习(Active Learning)的原则一致——不确定性最高的样本往往提供最有信息量的学习信号。

作者正式定义了轨迹级的结果不确定性:

$$ U(\pi_{\theta}, \mathcal{M}, s_0) = \text{Std}_{\tau \sim \pi_\theta(\cdot | s_0)}\left[R(\tau)\right] $$

其中 \(\mathcal{M} = \{S, A, P\}\) 为 MDP,\(s_0\) 为初始状态,\(\pi_\theta\) 为当前策略。在训练的每一步,对所有 prompt 按其多次 rollout 的 reward 标准差进行排序,仅保留方差最高的 top-\(p\%\) 的 prompt用于更新。

Effect of uncertainty-based filtering
图:不确定性过滤对多轮 RL 稳定性的影响。过滤低方差轨迹可显著降低坍塌风险并提升成功率。在 PPO 变体下,当过滤超过半数轨迹后,坍塌基本被消除。

实验结果表明:

  • 在 PPO 下:保留 75% 的 rollout 即可将 FrozenLake 的稳定训练步数从 100 延长至 140;保留 50% 可以完全避免坍塌。在 Sokoban 上效果同样显著。
  • 在 GRPO 下:由于无 Critic 设计本身稳定性较差,过滤带来的收益相对温和,但仍有一定改善。
  • 过滤同时提升了训练效率:丢弃低信息量的 rollout 减少了无效计算。

作者最终采用 \(p = 25\%\) 作为 StarPO-S 的默认设置(即仅保留方差最高的 25% prompt)。不过他们也指出,这个激进的值可能并非对所有场景都是最优的。

🔑 Finding 4:过滤低方差轨迹提升稳定性与效率
在高方差 prompt 上训练可以延缓甚至消除多轮 RL 中的坍塌。StarPO-S 通过丢弃低信息量的 rollout,在提升表现的同时减少了更新步数,尤其在 PPO 下效果显著。这与主动学习的原则一致:不确定的样本提供最有价值的梯度信号。

4.2.2 梯度塑形技术

除了不确定性过滤,StarPO-S 还引入了两项借鉴自 DAPO(单轮 RL 稳定化工作)的梯度塑形技巧,并首次验证了它们在多轮 agent 场景下的有效性:

  • KL Removal:传统的 PPO 损失中包含一个 KL 散度惩罚项 \(\beta D_{KL}[\pi_\theta \| \pi_{ref}]\),用于约束策略更新幅度。但在多轮 agent 训练中,这个惩罚可能过度限制了对新推理路径的探索。移除 KL 项后,模型可以更灵活地适应环境反馈。
  • Clip-Higher(非对称裁剪):标准 PPO 使用对称的裁剪范围 \(1 \pm \epsilon\)。而 Clip-Higher 使用非对称范围(如上界 0.4、下界 0.1),这使得模型可以从高奖励轨迹中学习更多,同时对低奖励轨迹的惩罚更温和——这在多轮交互中尤其重要,因为一次失败的 rollout 可能仅仅是因为环境的随机性而非策略本身的问题。

实验表明,两项技术均提升了 PPO 在多轮 RL 中的峰值成功率和训练稳定性。它们共同实现了 "强化有效推理路径,而非过度惩罚噪声样本" 的目标。

4.2.3 StarPO-S 整体对比

StarPO vs StarPO-S
图:StarPO-S 在三个符号化环境上一致优于 vanilla StarPO,延缓坍塌并提升最终表现。

StarPO-S 将上述三项改进(不确定性过滤 + KL 移除 + 非对称裁剪)组合在一起。在 Bandit、Sokoban 和 Frozen Lake 三个环境上的对比显示:

  • StarPO-S 一致地延缓了坍塌,并在所有环境上取得了更高的最终成功率
  • 改进的核心机制是:更精选的训练数据(不确定性过滤)+ 更均衡的优化信号(KL 移除 + 非对称裁剪),共同抑制了推理模式的单一化。

附录中还验证了 StarPO-S 在不同环境下的适用边界:当环境本身天然具有高 rollout 方差时(如 WebShop),StarPO-S 的过滤收益较小,因为此时方差本身已经足够高,不易陷入坍塌。


4.3 生成高质量训练轨迹:多样性、交互粒度与更新频率

有效的 RL 训练高度依赖轨迹质量。在 StarPO-S 保证训练稳定性的基础上,作者进一步研究了三个影响 rollout 质量的关键维度:任务多样性交互粒度rollout 更新频率。实验以 Sokoban 为主训练环境,在 SokobanNewVocab、LargeSokoban 和 FrozenLake 上评估泛化能力。

4.3.1 任务多样性:多样 prompt + 多响应对比 = 更好泛化

任务多样性指每个 rollout-update 循环中使用的不同 prompt 数量。在固定 batch size 的前提下,更多的 prompt 意味着每个 prompt 下的响应数量减少,反之亦然。

表:任务多样性对泛化性能的影响(%)
每 Prompt 响应数 SingleSokoban SokobanNewVocab FrozenLake
3221.0920.2217.97
1620.3121.4819.53
820.3119.5317.19
420.7025.3921.48
219.9225.0012.50
119.5322.2712.50

核心发现:

  • 每个 prompt 下 4 个响应是最优配置——既保证了足够高的任务多样性,也为模型提供了在同条件下对比不同结果的机会。
  • 当每 prompt 仅 1–2 个响应时,FrozenLake 上的泛化性能急剧下降(从 21.48% 跌至 12.50%),说明缺乏同 prompt 内的对比会导致模型无法有效学习
  • 高任务多样性之所以有效,是因为它迫使模型接触到更多的状态分布,避免了过拟合到少数场景。

4.3.2 交互粒度:适中的 action budget 平衡规划与噪声

交互粒度指每个 turn 允许的最大动作数。增加 action budget 可以让模型在单个 turn 内进行更充分的规划,但过长则可能引入无关的转移噪声。

表:不同每 turn 动作预算下的表现(%)
最大动作数 / Turn Sokoban SokobanNewVocab LargeSokoban FrozenLake
112.1113.671.1711.72
216.4121.093.5218.36
319.5319.531.9520.88
426.9526.955.0820.70
528.1325.786.2521.09
633.5931.646.6418.36
722.2728.523.9119.53

核心发现:

  • 每 turn 5–6 个动作是最优配置,在 Sokoban(33.59%)、SokobanNewVocab(31.64%)和 LargeSokoban(6.64%)上均取得最佳表现。
  • 当动作预算过少(1–2 个)时,模型缺乏足够的规划空间,尤其在需要多步推理的 LargeSokoban 上几乎无法学习(1.17%–3.52%)。
  • 当动作预算过多(7 个)时,性能反而下降——过多的动作引入了噪声转移,稀释了奖励信号的密度。
  • 这个发现揭示了一个重要的设计权衡:为模型提供足够的"思考-行动"空间,但不要让单个 turn 变得过于冗长

4.3.3 Rollout 更新频率:新鲜数据是关键

作者引入了 Online-\(k\) 的 rollout 策略:一组 rollout 被重复用于 \(k\) 次策略更新后才重新采样。\(k=1\) 对应完全在线(每次更新都用最新 rollout),\(k\) 越大意味着 rollout 数据越陈旧。

Online-k rollout frequency
图:不同 rollout 频率下的性能对比。更新更频繁的 Online-1 策略收敛更快、泛化更好。

实验表明:

  • Online-1(每次更新都采集新 rollout)在所有任务上取得了最快收敛和最佳泛化
  • 随着 \(k\) 增大(Online-5、Online-10),性能逐步下降——旧数据反映的是过时策略的行为,与当前策略的优化目标不匹配。
  • 这验证了一个多轮 RL 的核心设计原则:训练数据应尽可能反映 agent 的最新行为。频繁的 rollout 更新减少了策略-数据不匹配(policy-data mismatch),从而提高优化稳定性。
🔑 Finding 5:任务多样性、动作预算和 rollout 频率共同决定轨迹质量
多样的任务实例 + 每 prompt 多个响应 → 更好的策略对比与泛化;适中的动作预算(5–6/turn)提供足够的规划空间;高频的 rollout 更新确保优化目标与当前策略行为对齐。三者缺一不可。

4.4 推理促进泛化,但在多轮环境中无细粒度奖励会衰退

前面的讨论主要关注训练稳定性和轨迹质量。但 RAGEN 还有一个更深层的问题:推理(reasoning)到底在多大程度上有用,以及它是否能在 RL 训练中持续存在?

4.4.1 单轮 Bandit:推理显著提升泛化

作者在符号化 Bandit 环境中设计了受控的泛化测试。原始 Bandit 任务使用 [Teacher, Engineer] 手臂对进行训练,在 [Librarian, Trader] 上评估(保留直觉上的风险-收益对齐:Engineer 和 Trader 为高风险高收益)。BanditRev 则将这种关联反转,使推理更具挑战性。

表:StarPO-S 下有无推理的泛化性能(%)
训练于 Bandit 训练于 Sokoban
Bandit Bandit-Rev FrozenLake LargeSokoban Sokoban SokobanNewVocab
StarPO-S100.0067.5819.922.3421.4818.75
NoThink81.2556.2519.532.7320.7326.17

在单轮 Bandit 任务中:

  • 带推理的 StarPO-S 在 Bandit 上达到 100%(vs 无推理的 81.25%),在反直觉的 BanditRev 上也领先(67.58% vs 56.25%)。
  • 即使在语义-奖励错位的 BanditRev 设置中,显式推理仍能帮助模型内化符号-奖励的关联,而非仅仅进行表面记忆。

4.4.2 多轮环境:推理信号随训练衰减

与单轮形成鲜明对比的是,在多轮环境(Sokoban、FrozenLake)中,推理的收益极其有限。即使输出格式中包含 <think> 标记,移除了推理(NoThink 变体)后,性能往往持平甚至更好(如 NoThink 在 SokobanNewVocab 上达到 26.17% vs StarPO-S 的 18.75%)。

为理解这一退化,作者分析了训练过程中的平均响应长度:

表:不同训练阶段的推理长度(<think> 块 token 数)
Step Bandit Sokoban
Original NoThink Reverse Reverse NoThink Original NoThink
066.012.768.812.7307.168.6
10025.612.433.713.0104.655.3
20017.612.430.713.089.560.0

数据显示了一个令人担忧的趋势:

  • Sokoban 中推理长度从 307.1 token 骤降至 89.5 token(下降 71%)——模型在训练过程中逐渐压缩甚至"关闭"了自己的思考过程。
  • Bandit-Rev(反直觉设置)的推理衰减相对较慢(68.8 → 30.7),说明当任务本身更具认知挑战性时,推理更容易被保留
  • 在 Bandit 的 NoThink 变体中,响应长度基本不变(12.7 → 12.4),进一步证实推理的衰减是 RL 优化过程的直接后果。

4.4.3 为什么推理会消退?稀疏奖励与幻觉推理

作者推测,多轮任务中推理消退的根因在于稀疏且延迟的奖励结构

在单轮 Bandit 中,选择动作后立即获得奖励,推理可以直接关联到结果。但在多轮 Sokoban 中,最终成功可能依赖于多步之前的正确决策,中间的推理步骤与最终奖励之间的因果关系被时间和环境噪声严重稀释——模型难以判断某段推理是否真正有助于成功。

更糟糕的是,附录中的案例表明,模型有时会产生"幻觉推理"(hallucinated reasoning):生成的 <think> 内容与环境状态不一致,但仍然碰巧获得了高奖励。这进一步削弱了推理与奖励之间的因果关联。

🔑 Finding 6:推理不会在没有精细奖励设计的情况下自然涌现
在简单单轮任务中,符号推理可以在弱监督下自然涌现;但在多轮环境中,如果奖励信号仅关注最终结果,推理会随着训练逐步衰减。即使使用结构化 prompt,模型也可能倾向于绕过推理走捷径。这意味着需要更精细的、与推理质量挂钩的奖励设计来持续强化推理能力——例如奖励部分正确性、或对推理与状态的一致性进行显式评估。

RAGEN 的工作横跨两个活跃的研究方向:LLM 推理的强化学习LLM Agent 框架

5.1 LLM 推理的强化学习

近年来,RL 在提升 LLM 推理能力方面取得了显著进展。从经典 PPO 和 Actor-Critic 方法,到结构化 token 提示(如 meta tokens),再到 GRPO 和 DAPO 等近年提出的训练稳定化变体,单轮 RL 的方法论日趋成熟。然而,这些方法大多针对静态、单轮的数学或编程任务设计,在多轮交互式场景中的适用性和稳定性尚未被系统研究。RAGEN 正是填补了这一空白。

5.2 LLM Agent 框架

Agent 系统从早期的 ReAct 反应式规划,发展到模块化决策管线、多智能体协作、以及具身交互等前沿方向。Sokoban、FrozenLake、WebShop 等基准提供了不同动态特性下的受控测试环境。然而现有框架要么依赖于大量人工标注的 SFT 数据,要么需要复杂的架构工程。RAGEN 的目标是用 RL 驱动 agent 的自我进化,在尽量减少人工干预的前提下实现通用决策能力的提升。


6. 总结与讨论

RAGEN 这篇工作对多轮 Agent RL 训练进行了系统性的诊断与改进。回顾全文,可以提炼出以下核心贡献:

  1. 提出了 StarPO 框架:一个统一的轨迹级 RL 框架,将单轮 RL 方法(PPO / GRPO)自然扩展到多轮 agent 场景,支持推理引导的 rollout、灵活的奖励分配和多种优化器。
  2. 发现了 Echo Trap 坍塌模式:多轮 RL 训练中反复出现的失败模式——reward 方差坍塌、输出熵骤降、梯度范数尖峰——并建立了基于 Reward Std 和梯度范数的早期预警指标体系。
  3. 提出了 StarPO-S 稳定化方案:通过不确定性驱动的实例过滤、KL 移除和非对称裁剪三项改进,有效延缓甚至消除了多轮 RL 中的坍塌,在所有环境中提升了最终表现。
  4. 揭示了 rollout 质量的关键因素:任务多样性(多 prompt + 多响应对比)、适中交互粒度(5–6 actions/turn)和高频 rollout 更新(Online-1)三者共同决定了 RL 训练的轨迹质量与泛化能力。
  5. 诊断了推理消退的根本原因:在缺乏精细奖励信号的情况下,多轮 RL 训练会导致推理行为逐渐衰减,模型倾向于走捷径或产生幻觉推理——这对未来设计 reasoning-aware 的奖励函数提出了明确方向。
💡 关键启示
RAGEN 的核心信息是:将单轮 RL 直接套用到多轮 Agent 训练中是不够的。稳定性(StarPO-S)、数据质量(rollout 设计)和奖励精细度(reasoning-aware reward)三者缺一不可。未来的 Agent RL 研究需要在这三个维度上持续迭代。

当然,RAGEN 也存在局限性,包括:

  • 任务规模有限:主要在符号化小规模环境中验证,尚未在大规模真实世界任务上测试;
  • 未使用 replay buffer:这是一项成熟的 RL 实践,可能进一步提升样本效率;
  • 缺乏多模态支持:当前仅支持纯文本环境。

这些都为后续工作留下了丰富的探索空间。


Reference

[1] Wang et al. RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning. arXiv:2504.20073v2, 2025.

[2] RAGEN Project: https://ragen-ai.github.io/

[3] Code: https://github.com/RAGEN-AI/RAGEN


Contact

There may be some errors present. If you find any, please feel free to contact me at wangqiyao25@mails.ucas.ac.cn. I would appreciate it!