BEACON:基于里程碑锚定的长程语言 Agent 策略学习方法
本文介绍浙江大学与百度合作的论文 BEACON(BEACON: Milestone-Guided Policy Learning for Long-Horizon Language Agents),发表于 ICML 2026。 该工作直击长程语言 Agent 强化学习中的两大顽疾——信用分配错位与样本效率低下,提出了一种基于里程碑分割的轨迹分段优化框架。在 ALFWorld 长程任务上,BEACON 以 92.9% 的成功率近乎翻倍于 GRPO 的 53.5%,有效样本利用率从 23.7% 跃升至 82.0%。
Key Takeaways
- 核心发现:轨迹级 RL(如 GRPO)在长程任务中因信用分配错位导致超 40% 的梯度更新包含矛盾信号,严重崩溃
- 方法亮点:将轨迹按里程碑边界切分为段,段内做时序奖励衰减,段间做双尺度优势估计——轨迹级保全局、段级隔离下游方差
- SOTA 结果:ALFWorld 长程 92.9%(GRPO 53.5%),WebShop 75.6%,ScienceWorld 45.3%,1.5B 模型超越 GPT-4o
- 样本效率:有效样本利用率从 23.7% → 82.0%,3.5 倍提升;零优势样本比例从 ~100% 降至 ~10%
- 理论保证:基于「里程碑马尔可夫性」假设,证明了段级优势与下游回报的协方差近似为零(方差隔离定理)
- 跨范式对比:超越 SFT 行为克隆(43% → 91.4%),证明方法并非简单模仿,而是通过信用锚定发现更优策略
Motivation:长程 Agent 训练的困境
背景:为什么长程任务如此困难
语言 Agent 需要在环境中执行几十步的顺序决策。以 ALFWorld 为例,一个典型的「加热苹果并放在桌子上」任务涉及导航到厨房、找到苹果、拿起苹果、走到微波炉、加热、取出、放到桌子上等多步操作。这类任务的特点是 奖励极其稀疏——只有任务全部完成时才获得正向信号。当前主流的策略优化方法(PPO、GRPO、RLOO)将轨迹视为平坦的动作序列,仅依赖终端奖励来分配信用。这种 轨迹级优化 在任务步数较少时尚可工作,但当步数超过某个阈值后,性能出现系统性崩塌。
核心困境:GRPO 在 ALFWorld 短任务(\(L^* \leq 4\) 步)上可达 76.7%,但在长任务(\(L^* > 7\) 步)上骤降至 53.5%。这种 30% 的相对衰减 揭示了一个根本性的优化瓶颈——问题不在模型容量,而在信用分配机制本身。
两大根本病因
病因一:信用分配错位(Credit Misattribution)
在轨迹级优化中,一条轨迹内的所有动作根据终端结果获得 相同符号的优势信号。考虑一个典型场景:Agent 正确地完成了前三个子目标(拿起物品、加热、取出),但在最后一步「放置物品」时犯了错误。GRPO 会给整条轨迹分配负优势,导致那三个正确的早期动作受到惩罚。更为严重的是,同一状态-动作对在不同轨迹中会收到相反的梯度信号——当后续动作恰好成功时获得正梯度,后续动作失败时获得负梯度。论文用 Contradictory Action Ratio(CAR) 量化这一现象:在训练高峰期,超过 40% 的重复状态-动作对收到矛盾信号。
从数学角度看,设共享状态-动作集为 \(\mathcal{S}_{\text{shared}}\),对每个 \((s,a) \in \mathcal{S}_{\text{shared}}\),定义 \(A^+\) 和 \(A^-\) 分别为该对获得正、负优势的轨迹数,则: \[ \text{CAR} = \frac{1}{|\mathcal{S}_{\text{shared}}|} \sum_{(s,a) \in \mathcal{S}_{\text{shared}}} \mathbb{I}[A^+ > 0 \land A^- > 0] \] 更致命的是,定义 Effective Gradient Ratio(EGR) 来度量梯度抵消后的残余信号: \[ \text{EGR} = \frac{\sum_{(s,a) \in \mathcal{S}_{\text{shared}}} |g^+ - g^-|}{\sum_{(s,a) \in \mathcal{S}_{\text{shared}}} (g^+ + g^-)} \] 其中 \(g^+\) 和 \(g^-\) 分别为正、负优势幅度的总和。EGR = 1 表示完全一致的梯度,越低表示抵消越严重。实验中 EGR 在峰值低于 20%,意味着 超过 80% 的梯度信号在抵消中消失。
病因二:样本效率低下(Sample Inefficiency)
随着任务长度增加,成功轨迹愈发稀少。更重要的是,大量轨迹完成了若干子目标但最终失败——这些「部分成功」轨迹包含宝贵的学习信号,但在轨迹级优化中 与完全失败获得相同的零奖励。论文统计显示,训练过程中部分成功轨迹占比稳定在 39%-47%,但没有任何学习信号被利用。成功的全样本不足 27%,意味着超过 73% 的采样被浪费。
现有方案及其局限
已有几种尝试提供更密集信用分配的方案,但各有不足:
- Process Reward Model(PRM):需要昂贵的步骤级标注,且有 reward hacking 风险
- Monte Carlo Value Estimation(VinePPO):每个决策点需要多次 rollout,计算成本成倍增长
- GiGPO:通过识别轨迹间重复出现的状态来构造步骤级比较组,但其有效性依赖于状态重复频率——当策略改善、轨迹多样化后,状态重复减少,效果退化
核心洞察:长程任务本身具有可利用的结构——它们天然分解为以 里程碑(milestone) 为边界的若干阶段。里程碑是表示子目标完成的状态转换,具有一个关键性质:一旦到达里程碑状态,后续轨迹的分布几乎只取决于剩余子目标,而与如何到达该里程碑无关。这一 近似马尔可夫性 使得信用可以在不同段之间解耦,而轨迹级方法完全忽略了这一结构。
方法:BEACON 框架
BEACON 的核心思想是 利用任务的组合结构来同时解决信用错位和样本低效。框架分为三个阶段:轨迹分割、段内奖励塑形、双尺度优势估计。给定一条轨迹,首先通过里程碑检测器识别出子目标完成的时间点,将轨迹划分为多个段;然后在每个段内为接近里程碑完成的动作分配更高信用;最后在轨迹级和段级两个尺度上分别计算优势并组合。
数学预备
考虑标准 MDP \((\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma)\),语言 Agent 策略 \(\pi_\theta\) 通过与环境交互产生轨迹 \(\tau = \{(s_t, a_t)\}_{t=1}^{T}\)。环境提供稀疏终端奖励 \(R(\tau) \in \{0, 1\}\) 指示任务是否成功。
假定存在一个 里程碑检测器 \(\Phi: \mathcal{S} \times \mathcal{A} \times \mathcal{S} \rightarrow \{0, 1\}\),当状态转移完成一个语义子目标时返回 1。关键是 \(\Phi\) 不需要学习模型或人工标注——它从环境反馈中检测可观测的状态变化。例如在 ALFWorld 中检测物品状态变化(成功拿起、加热完成),在 WebShop 中检测页面跳转,在 ScienceWorld 中直接使用环境提供的显式子目标信号。
阶段一:轨迹分割与里程碑马尔可夫性
给定轨迹 \(\tau\),对每个转移应用 \(\Phi\) 得到里程碑时间戳 \(\mathcal{M} = \{t_1, \ldots, t_K\}\),其中 \(K\) 为完成的里程碑数。设 \(t_0 = 0\)、\(t_{K+1} = T\),将轨迹分割为 \(K+1\) 个段: \[ \text{Seg}_k = \{(s_t, a_t) : t_{k-1} < t \leq t_k\}, \quad k \in \{1, \ldots, K+1\} \]
这一分割基于一个重要的结构假设:
里程碑马尔可夫性(Milestone Markov Property):对里程碑状态 \(s_{t_k}\): \[ P(\text{Seg}_{k+1}, \ldots, \text{Seg}_{K+1} \mid s_{t_k}, \text{Seg}_1, \ldots, \text{Seg}_k) \approx P(\text{Seg}_{k+1}, \ldots, \text{Seg}_{K+1} \mid s_{t_k}) \] 即给定到达里程碑状态的条件,未来轨迹分布几乎只取决于剩余子目标,而与历史执行细节无关。这在组合任务中十分自然:一旦物品被拿起,后续的成功取决于接下来要做什么,而不是物品是如何被找到的。
这一假设是后续方差隔离定理的基础。即使假设不完全满足(如存在跨段资源约束),BEACON 仍能提供经验收益:部分成功通过奖励塑形贡献梯度信号,段级比较即使不完全消除下游方差也能显著降低其影响。
阶段二:时序奖励塑形
仅分割轨迹并不能解决样本低效的问题——失败轨迹中的段仍然获得零奖励。BEACON 引入 时序奖励塑形 来表彰部分进展。
对轨迹 \(\tau_i\) 中段 \(\text{Seg}_k\) 内的动作 \(a_t\),设该轨迹完成了 \(K_i\) 个里程碑: \[ r_t = \begin{cases} R_{\text{ms}} \cdot \gamma^{\,t_k - t} & \text{if } k \leq K_i \\ 0 & \text{if } k = K_i + 1 \end{cases} \] 其中 \(R_{\text{ms}} > 0\) 是里程碑奖励常数,\(\gamma \in (0, 1)\) 是时序衰减因子。
这一设计有两个性质:(1) 所有已完成段中的动作获得正奖励,使 部分成功产生学习信号;(2) 越靠近里程碑完成的动作获得越高的信用,鼓励高效执行——因为时序衰减 \(\gamma^{t_k - t}\) 意味着距离完成步数越少,权重越大。
关键洞察:这一定义使得动作的奖励仅依赖于其在段内的位置和该段是否完成,而与该段之后的任何事件无关。这是后续方差隔离的数学基础。
阶段三:双尺度优势估计
时序奖励塑形提供了稠密信号,但仍未完全解决信用错位:早期段中的动作仍可能通过轨迹级比较被后续结果所污染。BEACON 通过双尺度优势估计来解决这一问题。
轨迹级优势
对于同一任务的 \(G\) 条轨迹 \(\{\tau_i\}_{i=1}^{G}\),轨迹级优势沿用 GRPO 的标准化形式: \[ A^{\text{traj}}_i = \frac{R(\tau_i) - \mu}{\sigma + \epsilon} \] 其中 \(\mu = \frac{1}{G}\sum_i R(\tau_i)\),\(\sigma\) 为终端奖励的标准差。这保留了 全局任务性能信号,确保策略朝着任务成功方向优化。
段级优势
轨迹级比较将所有动作等权对待,无法区分段内动作质量。BEACON 的创新在于 仅在到达相同里程碑的轨迹之间比较段表现。定义里程碑 \(k\) 的比较组: \[ \mathcal{G}_k = \{i : K_i \geq k\} \] 即所有至少完成了 \(k\) 个里程碑的轨迹。段的回报为: \[ R_k^{(i)} = \sum_{t \in \text{Seg}_k^{(i)}} r_t \] 段级优势将单步奖励与该组平均每步回报进行比较: \[ A^{\text{seg}}_{i,t} = r_t - \frac{1}{|\mathcal{G}_k|} \sum_{j \in \mathcal{G}_k} \frac{R_k^{(j)}}{|\text{Seg}_k^{(j)}|}, \quad t \in \text{Seg}_k^{(i)} \]
这一设计的核心保障来自以下定理:
在里程碑马尔可夫性假设下,对比较组 \(\mathcal{G}_k\) 中的轨迹: \[ \text{Cov}_{i \in \mathcal{G}_k}\left(A^{\text{seg}}_{i,t}, R_{k'}^{(i)}\right) \approx 0, \quad \forall t \in \text{Seg}_k^{(i)}, \forall k' > k \]
证明概要:
对 \(t \in \text{Seg}_k^{(i)}\),塑形奖励 \(r_t\) 仅取决于段内位置(通过 \(t_k^{(i)} - t\))和段 \(k\) 内的动作——这些发生在里程碑 \(k\) 到达之前。对 \(k' > k\),段回报 \(R_{k'}^{(i)}\) 仅取决于段 \(k'\) 内的动作——这些发生在里程碑 \(k\) 到达之后。
由里程碑马尔可夫性,给定里程碑状态 \(s_{t_k}\),段 \(k\) 和段 \(k'\) 中的动作条件独立: \[ \mathbb{E}[r_t \cdot R_{k'}^{(i)} \mid i \in \mathcal{G}_k] \approx \mathbb{E}[r_t \mid i \in \mathcal{G}_k] \cdot \mathbb{E}[R_{k'}^{(i)} \mid i \in \mathcal{G}_k] \] 因此: \[ \text{Cov}(A^{\text{seg}}_{i,k}, R_{k'}^{(i)}) = \text{Cov}(R_k^{(i)} - \bar{R}_k, R_{k'}^{(i)}) = \text{Cov}(R_k^{(i)}, R_{k'}^{(i)}) \approx 0 \]
这一结果意味着 \(\text{Seg}_k\) 中动作的梯度 不受后续段结果的影响,从根本上解决了信用分配错位问题。值得注意的是,GiGPO 通过状态重复来构造组,无法提供这种保证——因为状态级分组仍然混合了来自不同后续结果的动作。
组合优势
最终,轨迹 \(\tau_i\) 的段 \(\text{Seg}_k\) 中动作 \(a_t\) 的优势为: \[ \hat{A}_{i,t} = A^{\text{traj}}_i + \lambda \cdot A^{\text{seg}}_{i,t} \] 其中 \(\lambda > 0\) 平衡全局任务性能与局部段质量。消融实验表明,单独使用段级优势在不同任务上表现差异巨大(ALFWorld 上仅 23.4%,WebShop 上 67.9%),而双尺度组合在所有任务上均稳健。
策略优化目标
使用标准的 PPO 裁剪替代目标进行策略更新: \[ \mathcal{J}(\theta) = \mathbb{E}\left[\sum_{t} \min\left(\rho_t \hat{A}_{i,t}, \ \text{clip}\left(\rho_t, 1-\epsilon, 1+\epsilon\right) \hat{A}_{i,t}\right)\right] \] 其中 \(\rho_t = \pi_\theta(a_t|s_t) / \pi_{\theta_{\text{old}}}(a_t|s_t)\) 是重要性采样比。
实验
实验设置
基座模型:Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct。所有 RL 方法使用完全相同的训练配置以保证公平对比。BEACON 特有参数 \(\gamma=0.95\)、\(\lambda=1.0\) 在所有 benchmark 上固定不做调优。
评测基准:
- ALFWorld:文本式具身推理,6 类家务任务,按最优轨迹长度分 Short(≤4)、Medium(5-7)、Long(>7)
- WebShop:118 万商品的网页导航环境,评测 Score(属性匹配的部分分)和 Success Rate
- ScienceWorld:30 类科学推理任务,需进行虚拟实验,步数常超 30 步
基线方法:(1) 闭源模型 GPT-4o、Gemini-2.5-Pro (ReAct);(2) Prompting 方法 ReAct、Reflexion;(3) RL 方法 PPO、RLOO、GRPO、GiGPO。
主要结果
| 类型 | 方法 | ALFWorld | SciWorld | WebShop | |||||
|---|---|---|---|---|---|---|---|---|---|
| Short | Medium | Long | Avg | Score | Succ | Score | Succ | ||
| 闭源模型 | |||||||||
| Prompting | GPT-4o (ReAct) | 71.4 | 33.7 | 49.8 | 48.0 | 54.3 | 45.4 | 31.8 | 23.7 |
| Prompting | Gemini-2.5-Pro (ReAct) | 84.8 | 50.7 | 58.7 | 60.3 | 47.8 | 36.7 | 42.5 | 35.9 |
| 基座:Qwen2.5-1.5B-Instruct | |||||||||
| Prompting | Direct Prompt | 5.8 | 5.1 | 0.0 | 4.1 | 5.9 | 0.7 | 23.1 | 5.2 |
| Prompting | ReAct | 18.2 | 10.5 | 2.0 | 12.8 | 9.0 | 1.2 | 40.1 | 11.3 |
| Prompting | Reflexion | 31.8 | 18.9 | 3.7 | 21.8 | 7.1 | 3.9 | 55.8 | 21.9 |
| RL Training | PPO | 58.2 | 54.0 | 47.4 | 54.4 | 29.3 | 10.9 | 73.8 | 51.5 |
| RL Training | RLOO | 78.7 | 67.4 | 56.9 | 69.7 | - | - | 73.9 | 52.1 |
| RL Training | GRPO | 76.7 | 73.9 | 53.5 | 72.8 | 31.7 | 21.1 | 75.8 | 56.8 |
| RL Training | GiGPO | 90.7 | 84.3 | 79.5 | 86.1 | 35.6 | 25.8 | 83.1 | 65.0 |
| RL Training | BEACON (Ours) | 96.8 | 87.0 | 92.9 | 91.4 | 58.9 | 45.3 | 86.1 | 75.6 |
| 基座:Qwen2.5-7B-Instruct | |||||||||
| Prompting | Direct Prompt | 30.2 | 10.3 | 3.2 | 14.8 | 11.4 | 4.2 | 26.4 | 7.8 |
| Prompting | ReAct | 45.0 | 23.4 | 17.6 | 31.2 | 17.4 | 7.8 | 46.2 | 19.5 |
| Prompting | Reflexion | 56.5 | 38.4 | 23.8 | 42.7 | 23.4 | 11.7 | 58.1 | 28.8 |
| RL Training | PPO | 84.6 | 87.3 | 68.8 | 80.4 | 37.1 | 24.0 | 81.4 | 68.7 |
| RL Training | RLOO | 85.1 | 80.2 | 48.9 | 75.5 | - | - | 80.3 | 65.7 |
| RL Training | GRPO | 84.1 | 79.7 | 64.7 | 77.6 | 61.8 | 49.1 | 79.3 | 66.1 |
| RL Training | GiGPO | 93.6 | 91.8 | 79.2 | 90.8 | 69.2 | 53.4 | 84.4 | 72.8 |
| RL Training | BEACON (Ours) | 95.1 | 94.9 | 90.0 | 94.5 | 83.7 | 64.3 | 87.7 | 79.7 |
表1:主要结果。BEACON 在所有 benchmark 和模型规模上均取得最优。1.5B BEACON 超越 GPT-4o 和 Gemini-2.5-Pro 等闭源大模型。
长程鲁棒性分析
BEACON 最显著的增益体现在长程任务上。对于 1.5B 模型,GRPO 从 Short 的 76.7% 骤降至 Long 的 53.5%(相对衰减 30%),GiGPO 从 90.7% 降至 79.5%(衰减 12.4%),而 BEACON 在 Short/Medium/Long 上分别达到 96.8%/87.0%/92.9%——几乎不受任务长度影响。
在 7B 模型上,相对 GRPO 的增益从 Short 的 +13% 增长到 Long 的 +39%,而 GiGPO 从 +11% 到 +22% 趋于饱和。GiGPO 依赖状态重复来构造步骤级比较组,当策略改善、轨迹多样化后状态重复减少,其效果退化。相比之下,BEACON 的里程碑锚定机制不依赖状态重复,收益随任务长度增长。
样本效率:部分成功变为学习信号
在 ALFWorld 训练的第 150 轮,GRPO 有 39% 的轨迹是部分成功(完成至少一个里程碑但最终失败),这些轨迹获得零奖励。GiGPO 通过状态分组将比例降至 28%。BEACON 的时序奖励塑形为里程碑完成提供正奖励,将部分成功率降至 13%,有效样本利用率从 23.7% 提升至 82.0%——3.5 倍增长。
梯度饥饿度量(ZAR,零优势比)进一步证实:GRPO 训练起始时 ZAR 接近 100%,150 轮后仍约 55%。BEACON 起始 ZAR 仅 45%,并迅速降至约 10%——里程碑奖励从部分成功中提取信号,大幅缓解梯度饥饿。
信用集中度分析
定义 信用集中比(CCR) 为里程碑动作的平均优势幅度除以非里程碑动作的平均优势幅度。CCR=1 表示均匀信用,CCR>1 表示集中于里程碑。
GiGPO 的 CCR 最高(2.36),意味着里程碑动作获得的信用是非里程碑动作的 2.36 倍——这看似合理却有问题:过度集中惩罚了到达里程碑所必需的中间动作。GRPO 中等集中(1.37)。BEACON 的 CCR 最低(0.84),非里程碑动作反而获得略多信用,这是因为时序衰减为段内所有动作分配了梯度化的正信用,保留了探索性步骤的信号。尽管集中度最低,BEACON 却取得了最高性能——这一反直觉发现表明 信用应该奖励过程而非仅奖励结果。
超越行为克隆
一个合理的质疑是 BEACON 是否退化为了行为克隆。实验给出了否定的答案:在 oracle 轨迹上做监督微调仅取得 43% 的成功率。BEACON 即使去掉时序衰减(\(\gamma=0\),仅里程碑奖励)仍达到 81%,加入时序衰减(\(\gamma=0.95\))进一步提升至 91.4%。这表明里程碑结构提供了信用分配的锚点,但策略通过 RL 发现了 超越 oracle 的执行策略。
训练动态
BEACON 收敛速度显著快于 GRPO:在第 50 轮即达到 60% 成功率,而 GRPO 需要 120 轮才能达到相同水平。策略熵的分析更具启发性:BEACON 的熵平滑下降,反映稳定的策略精化过程;GRPO 在整个训练中保持高熵,反映梯度质量差带来的探索-利用困境。
消融实验
| 变体 | ALFWorld | WebShop |
|---|---|---|
| BEACON(完整) | 91.4 | 75.6 |
| 轨迹分割 | ||
| 50% 里程碑随机丢弃 | 82.8 | 68.3 |
| 随机分割(5 个任意位置) | 74.2 | 57.6 |
| 奖励塑形 | ||
| 无时序衰减(\(\gamma=0\)) | 81.2 | 62.1 |
| 均匀塑形(\(\gamma=1\)) | 71.8 | 64.1 |
| 优势估计 | ||
| 无段级优势(=GRPO) | 72.8 | 56.8 |
| 无轨迹级优势 | 23.4 | 67.9 |
| GRPO | 72.8 | 56.8 |
表2:消融实验(Qwen2.5-1.5B)。三大组件各自贡献显著,双尺度优势在不同任务上呈现互补效应。
关键发现汇总:
- 分割质量 > 分割本身:随机分割仅比 GRPO 高 1.4%,但完整里程碑比随机高 17.2%——证明收益来自利用任务固有结构,而非简单分段
- 时序衰减不可或缺:移除衰减(\(\gamma=0\))从 91.4% 降至 81.2%,而均匀塑形(\(\gamma=1\))更差(71.8%)——因为不加区分的均匀奖励模糊了关键动作与准备动作的界限
- 双尺度互补:仅用段级优势在 ALFWorld 上仅 23.4%(段级优化可能强化「到达里程碑但最终失败」的行为),而在 WebShop 上达 67.9%(里程碑完成与任务成功更一致)。轨迹级反馈提供必要的全局校正
- 鲁棒性:50% 里程碑丢弃后仍达 82.8%,仍超 GRPO 10%,表明 BEACON 对不完美里程碑检测具有容忍度
案例分析:信用分配的可视化
在失败轨迹中,Agent 完成 S3 和 S4 后失败。GRPO 分配统一负优势(\(A=-2.50\)),GiGPO 因状态匹配将里程碑 S3 与成功轨迹比较而给出 最低 优势(\(A=-4.00\))——这是反直觉的错误分配。BEACON 正确地为里程碑分配正优势(\(A=+0.51\))并惩罚错误动作。
在成功但包含不必要迂回的轨迹中,GRPO 给所有动作统一正优势(\(A=+7.50\)),GiGPO 对迂回部分给予 最重 奖励(\(A=+8.10\))。BEACON 精确地 惩罚迂回(\(A=-1.10\))同时奖励里程碑完成——体现了细粒度信用分配的能力。
讨论与展望
BEACON 打破的障碍:首次通过利用任务的组合结构,在理论上(方差隔离)和实验上(样本利用率 3.5× 提升)系统性地解决了长程 RL 的信用分配问题。1.5B 小模型经 BEACON 训练后超越 GPT-4o 和 Gemini-2.5-Pro,表明 恰当的训练方法可以弥补模型规模的不足。
局限与未来方向:
- 里程碑检测:当前依赖领域知识设计模式匹配规则(如环境响应中的状态变化关键词)。开发自动化的里程碑发现方法——通过 LLM 识别语义上有意义的进展——是重要的开放问题
- 里程碑粒度:过稀疏则逼近轨迹级优化,过密集则段级优势可能噪声过大。自适应或层次化的里程碑结构可能进一步提升性能
- 应用范围:当前评测限于离散动作空间和文本式交互。里程碑锚定信用分配在连续控制、多智能体或低组合性任务上的适用性有待探索
总结
本文的核心贡献可归纳为:
- 问题诊断:通过 CAR、EGR、ZAR 等定量指标,首次系统性地揭示了轨迹级 RL 在长程任务中的信用错位(>40% 矛盾信号)和样本低效(>73% 采样浪费)双重危机
- 方法论:提出 BEACON 框架,包含三个关键组件——轨迹按里程碑边界分割(利用任务的组合结构)、段内时序奖励衰减(将稀疏奖励转化为稠密反馈)、双尺度优势估计(轨迹级保全局方向 + 段级隔离下游方差)
- 理论保证:在里程碑马尔可夫性假设下,证明了方差隔离定理——段级优势与后续段回报的协方差近似为零,从理论上保证了信用分配的独立性
- 实验验证:在 ALFWorld(长程 92.9% vs GRPO 53.5%)、WebShop(75.6% vs 56.8%)、ScienceWorld(45.3% vs 21.1%)三个基准上的全面验证,展现出随任务长度增长的增益效应
Reference
[1] Milestone-Guided Policy Learning for Long-Horizon Language Agents
Contact
There may be some errors present. If you find any, please feel free to contact me at wangqiyao25@mails.ucas.ac.cn. I would appreciate it!