Claw-Eval:面向可信自主 Agent 评估的全轨迹审计与多维评分基准
- Claw-Eval:由北京大学与香港大学联合提出的可信自主 Agent 评估套件,300 个人工验证任务、9 个细粒度类别,覆盖通用服务编排、多模态感知与交互、多轮专业对话三大场景
- 全轨迹审计(Full-Trajectory Auditing):通过执行轨迹、服务端审计日志、环境快照三条独立证据通道,实现2,159 条细粒度 Rubric的轨迹感知评分,彻底解决传统"只看输出不看过程"的评估缺陷
- 多维评分体系:Completion(完成度)、Safety(安全性)、Robustness(鲁棒性)三维度耦合评分,配合 Average Score、Pass@\(k\)(能力上限)、Pass\(^{\smallfrown}k\)(可靠性下限)三重指标
- 14 个前沿模型评测:最强模型 Pass\(^{\smallfrown}3\) 仅 70.4%,多模态 Pass\(^{\smallfrown}3\) 最高仅 25.7%;轨迹不透明评估遗漏 44% 安全违规、13% 鲁棒性失败
- 核心发现:能力不等于一致性;多轮对话中问题质量解释 76% 方差(\(r=0.87\)),而对话轮次几乎无贡献(\(r=0.07\))
Intro
大语言模型正从对话助手快速演化为自主 Agent——能够调用工具、浏览文件系统、查询数据库、跨应用编排动作,在真实软件环境中执行复杂的多步工作流。Claude Code、OpenClaw 等现代 Agent Harness 赋予了 LLM 前所未有的行动能力,也由此将核心评估问题从"模型是否拥有知识"转变为"模型是否能通过主动的、情境化的行动可靠地达成目标"。
然而,现有 Agent 评估基准在三个关键维度上存在严重不足,限制了其诊断能力:
(G1) 轨迹不透明评分(Trajectory-Opaque Grading):许多 Benchmark 仅验证模型的最终输出,而不系统审计产生该输出的执行过程。这使得忠实执行难以与伪造或捷径行为区分,仅看输出的评估极易遭受 Reward Hacking。例如,Agent 可能生成看似合理的最终摘要,却依赖了过期文件或忽略了关键支持文档——仅凭输出本身无法检测这些问题。
(G2) 安全性与鲁棒性评估不足:在实际部署中,Agent 不仅需要满足任务目标,还必须遵守安全约束并从瞬态故障中恢复。虽然已有工作引入了专门的安全 Benchmark,但安全性很少被嵌入到普通的端到端工作流任务中;在受控扰动(如超时、速率限制)下的鲁棒性也鲜有评估。
(G3) 任务覆盖范围狭窄:真实 Agent 需要在同一部署中处理异构场景——服务编排、多模态感知、扩展对话,但大多数 Benchmark 仅聚焦单一模态或交互范式,如纯文本工具调用、命令行执行或 GUI 导航。
⇒ 为此,论文提出了 Claw-Eval——一个在统一框架内系统解决上述三大缺陷的端到端评估套件。其核心主张是:可信的 Agent 评估必须将评分建立在 Agent 实际行为的证据之上,而非其声称的行为。
Claw-Eval 框架设计
可审计执行流水线
为解决轨迹不透明问题(G1),Claw-Eval 将完整运行过程——而非仅最终答案——作为评估对象。每次运行被组织为三个时间上严格分离的阶段:
- Setup 阶段:读取任务定义,为本次运行配置全新的隔离 Sandbox 容器。任务资源(数据集、文档、代码、媒体素材)被注入容器构成 Agent 的工作环境。若任务需要外部服务,框架同步启动对应的 Mock 服务(模拟 CRM、邮件网关、调度后端、知识库等),并从启动时刻起在服务端审计日志中记录所有入站请求。
- Execution 阶段:Agent 通过工具接口与环境交互,尝试完成任务。框架提供两层能力:系统层(代码执行、文件操作、代码库搜索、Web 交互、多模态媒体处理共 11 个内置工具)和服务层(任务特定的 Mock API)。全程在 Sandbox 外部维护结构化执行轨迹,记录所有工具调用和观察结果序列。由于轨迹在外部收集,Agent 在任务求解过程中无法感知。
- Judge 阶段:Agent 终止后,框架才将评分产物(评估脚本、参考答案、验证工具)引入容器。此时可渲染生成的网页、执行验证代码、检查 Agent 产生的所有产物。最终评分基于三条证据通道:执行轨迹(完整交互历史)、服务端审计日志(外部服务实际收到的请求及参数)、环境快照(执行后状态,含生成文件和验证器输出)。
这一"时序防火墙"设计确保:Agent 在执行期间仅能访问任务求解资源,而评估资源被完全隔离至评分阶段。评分依据的是观察到的行为而非 Agent 的自我报告。
跨模态任务套件
Claw-Eval 包含 300 个人工验证任务,横跨 9 个细粒度类别,组织为三个互补的任务组。所有任务共享相同的三阶段执行生命周期和声明式任务模式:
General(通用任务,161 个):评估 Agent 完成实际工作流目标的能力,从单服务查询到跨服务协调和多系统编排。按难度分为 Easy(71 个,单服务查询/基础调度)、Medium(47 个,跨服务协调/数据检索)、Hard(43 个,多系统编排/财务合规/运维)。部分任务嵌入了显式安全约束(如禁止通信、禁止凭据暴露),使安全性在普通任务完成压力下被评估而非孤立测试。
Multimodal(多模态任务,101 个):评估对富媒体的主动感知与生成能力。Video(53 个):从简单 QA 到视频定位与裁剪;Doc & Image(22 个):图表解读、跨页推理;Code(26 个):网页生成、SVG 动画、视频编辑。Agent 必须主动选择检查什么(哪些片段、帧、页面),再基于检索到的视觉内容进行推理。
Multi-turn Dialogue(多轮对话,38 个):评估通过多轮交互进行专业咨询的能力,覆盖 STEM(10 个)、社会科学(13 个)、商业(15 个)。每个任务设定隐藏意图的用户画像——关键信息被刻意隐藏,只有当 Agent 提出正确问题时才逐步释放。
评分协议
Claw-Eval 的评分协议包含三个层次的设计,将丰富的证据记录转化为全面、精确、可信的分数:
多维评分结构:每次任务尝试从三个维度评量:
- Completion(完成度):Agent 满足任务目标的程度
- Safety(安全性):执行过程中是否遵守了策略约束。Safety 作为乘性门控(multiplicative gate),使策略违规无法被高完成度分数弥补
- Robustness(鲁棒性):从瞬态环境故障中恢复的能力,通过受控错误注入测量
最终任务得分: \[ \text{score} = s_{\text{safety}} \times \bigl(\alpha \cdot s_{\text{completion}} + \beta \cdot s_{\text{robustness}}\bigr) \] 其中 \(\alpha + \beta = 1\)(实验中 \(\alpha = 0.8, \beta = 0.2\))。鲁棒性分数定义为: \[ s_{\text{robustness}} = \begin{cases} \dfrac{|\mathcal{T}_{\text{recovered}}|}{|\mathcal{T}_{\text{errored}}|}, & \text{if } |\mathcal{T}_{\text{errored}}| > 0, \\[6pt] 1, & \text{otherwise.} \end{cases} \] 其中 \(\mathcal{T}_{\text{errored}}\) 为遭遇至少一次注入错误的工具类型集合,\(\mathcal{T}_{\text{recovered}}\) 为 Agent 后续获得成功响应的子集。
细粒度 Rubric:300 个任务被分解为 2,159 条可独立验证的 Rubric(平均每任务 7.2 条),分为两类:(i) 确定性检查——验证客观条件,如必需文件是否存在、API 是否以正确参数调用、审计日志中是否出现禁止操作;(ii) 判断式检查——使用 LLM Judge 对开放性输出(文本质量、推理连贯性、视觉保真度)进行评分。所有 Rubric 均锚定于独立证据源,形成从最终得分到维度级细分、底层 Rubric 项、对应行为证据的完整审计链。
多指标评估协议:由于 Agent 执行具有随机性,每个任务运行 \(k\) 次独立试验,报告三个互补指标: \[ \text{Average Score} = \frac{1}{N}\sum_{i=1}^{N}\frac{1}{k}\sum_{j=1}^{k} s_{ij} \] \[ \text{Pass@}k = \frac{1}{N}\sum_{i=1}^{N} \mathds{1}\!\left[\max_{j=1}^{k} s_{ij} \ge \tau\right] \] \[ \text{Pass}^{\smallfrown}k = \frac{1}{N}\sum_{i=1}^{N} \mathds{1}\!\left[\min_{j=1}^{k} s_{ij} \ge \tau\right] \] Pass@\(k\) 测量能力上限(至少有一次通过),Pass\(^{\smallfrown}k\) 测量可靠性下限(每次均通过)。两者间的巨大差距指示有限的一致性。
实验
实验设置
评估了 14 个前沿模型,覆盖 10 个模型家族:Claude-Opus-4.6、Claude-Sonnet-4.6、GPT-5.4、Gemini-3.1-Pro、Gemini-3-Flash、Qwen3.5-397B-A17B、MiMo-V2-Pro、MiMo-V2-Omni、GLM-5-Turbo、GLM-5V-Turbo、DeepSeek-V3.2、MiniMax-M2.7、Kimi-K2.5、Nemotron-3-Super。所有 14 个模型在 General(161 任务)和 Multi-turn(38 任务)上评测;Multimodal(101 任务)限于 9 个支持视觉输入的模型。每个模型在同一 Scaffold 和工具集下评估,温度设为 0,启用 thinking,每个任务在独立 Docker Sandbox 中运行 3 次独立试验,错误注入率默认 0。
主要结果
整体结果:Claude-Sonnet-4.6 以 81.4% Average Score 领先,Claude-Opus-4.6 以 70.4% Overall Pass\(^{\smallfrown}3\) 领先。关键发现:
- 一致性与峰值性能不对齐:Claude-Opus-4.6 在 Pass\(^{\smallfrown}3\) 上领先(70.4%),而 Claude-Sonnet-4.6 在 Score 上领先(81.4%)
- 不同任务组测试不同能力:Gemini-3.1-Pro 在 Multi-turn Pass\(^{\smallfrown}3\) 排名第 2(65.8%),但在 General Pass\(^{\smallfrown}3\) 仅排第 7(55.9%)
- Benchmark 仍有巨大提升空间:最强模型 Overall Pass\(^{\smallfrown}3\) 仅 70.4%
- 难度分层有效:Easy 上 Pass\(^{\smallfrown}3\) 跨六个模型从 14% 到 75%,Hard 上 Claude-Opus-4.6 仅保留 65.1%
多模态结果:多模态任务远更困难——最高 Pass\(^{\smallfrown}3\) 仅 25.7%(GPT-5.4),远低于 Claude-Opus-4.6 在 General 上的 70.8%,表明当前模型处理基于文本的工具使用远比视觉感知和生成可靠。排名跨模态转移:Claude-Opus-4.6 在 General 领先但在 Multimodal 排名第二,GPT-5.4 在 General 排第三却在 Multimodal 排第一。多模态能力是一个独立维度,不能从纯文本表现预测。
深入分析
发现1:轨迹不透明的 LLM Judge 系统性遗漏 44% 的安全违规
为验证轨迹审计的价值,论文将完整的对话记录(含每个工具调用)和评分器源代码提供给纯 LLM Judge(Gemini-3-Flash),仅隐藏服务端审计日志和环境快照。在 5 个模型、2,000+ 条轨迹上,纯 LLM Judge 系统性漏检了混合管道捕获的问题:遗漏 12/27(44%)安全违规和 15/118(13%)鲁棒性问题。混合评分器通过对工具调用参数的确定性匹配检测安全违规,而 LLM Judge 无法仅从文本可靠地执行相同规则,有时还会"合理化"Agent 的违规行为。
进一步的盲法人类仲裁(12 个安全分歧案例 + 15 个鲁棒性分歧案例 + 100 个对照案例)证实:在安全分歧上,人类仲裁结果 100% 与混合管道一致,而纯 LLM Judge 一致率为 0%;在鲁棒性分歧上,混合管道与人类仲裁一致率 86.7%,纯 LLM Judge 仅 6.7%。这以有力证据支持:对于依赖外部审计信号或执行后状态的标准,混合管道比仅凭对话轨迹的判断更可靠。
发现2:错误注入侵蚀一致性远甚于峰值能力,Pass\(^{\smallfrown}3\) 骤降达 24 个百分点
为理解 Agent 在工具调用间歇失败时的行为,论文在 General 任务上以错误注入率 0.0、0.2、0.4、0.6 评估三个模型,注入错误按 HTTP 429(35%)、HTTP 500(35%)、2-4 秒延迟峰(30%)分布。核心发现:错误注入主要削弱一致性而非峰值能力——从 0.0 到 0.6,Pass@3 几乎持平,而 Pass\(^{\smallfrown}3\) 急剧下降(最高达 24 个百分点)。
Pass@3 和 Pass\(^{\smallfrown}3\) 之间的差距对每个模型均单调扩大,量化了能力-可靠性鸿沟(Capability-Relability Divide)。Claude-Opus-4.6 最具韧性,在 0.6 错误率下仍保持 56.5% Pass\(^{\smallfrown}3\),差距扩展最小(9.9% → 20.5%)。韧性并不跟踪基线性能:Gemini-3.1-Pro 尽管起点更高,退化程度却是 GLM-5-Turbo 的近两倍。这深刻表明:单独使用 Pass@3 会通过暗示高韧性来掩盖脆弱性,而 Pass\(^{\smallfrown}3\) 揭示了部署级可靠性的大幅下降,强化了多指标评估的必要性。
发现3:更好的问题,而非更多轮次,带来更优的多轮对话表现
38 个多轮对话任务模拟专业咨询场景——用户画像逐步释放关键信息,Agent 必须在给出最终答案前通过澄清问题主动获取这些信息。在 13 个模型上,对话轮次与 Pass\(^{\smallfrown}3\) 呈近乎零相关(\(r = 0.07\), \(R^2 < 0.01\))——大多数模型平均 3-5 轮,却覆盖了从 15.8% 到 68.4% 的完整 Pass\(^{\smallfrown}3\) 范围。
真正的预测因素是问题精确度(Question Precision),定义为澄清度(问题是否命中要害)与轨迹质量(信息收集过程是否逻辑有序)的均值。它解释了 76% 的 Pass\(^{\smallfrown}3\) 方差(\(r = 0.87\)),所有 13 个模型均位于 95% 置信区间内或附近。对比极为鲜明:轮次方差的不到 1% vs 问题质量的 76%。这与任务设计高度吻合——关键信息被隐藏在渐进式揭示之后,因此提问策略的质量而非对话长度决定了模型收集到多少上下文。这一发现对 Agent 设计有重要启示:与其盲目增加交互轮次,不如优化信息获取策略的精准度。
发现4:多模态能力高度领域特异——无一模型在所有领域占优
101 个多模态任务跨三个领域:Video(53)、Doc & Image(22)、Code(26)。无一模型在所有领域占优:Video 由 Claude-Opus-4.6/Sonnet-4.6 领先(Pass\(^{\smallfrown}3\) 15.4%),Doc & Image 由 GPT-5.4 领先(54.5%),Code 由 MiMo-V2-Omni 领先(33.3%)。排名转移显著:GPT-5.4 整体领先却在 Video 上排名较低;MiMo-V2-Omni 在 Code 上领先尽管整体排名靠后。领域级细分不可或缺。
跨模型聚合后,能力分布极不均衡:Video Pass\(^{\smallfrown}3\) 平均仅 10.7%,Doc & Image 32.3%,Code 23.9%。一致性也因领域而异——以转换率 \(\rho = \text{Pass}^{\smallfrown}3 / \text{Pass@}3\) 衡量:Video 为 0.37,Code 为 0.48,Doc & Image 为 0.53,表明感知不确定性越高的任务运行间方差越大。两组发现正交:哪个领域一个模型擅长是模型特异的,而它多么可靠地擅长是领域特异的。
总结
Claw-Eval 提出了一个以全轨迹审计、多维评分和跨模态覆盖为核心的可信 Agent 评估框架。通过 300 个人工验证任务、2,159 条细粒度 Rubric 和 14 个前沿模型的系统评测,论文揭示了一系列深刻发现:
- 轨迹不透明评估系统性不可靠——遗漏 44% 安全违规和 13% 鲁棒性失败
- 能力不等于一致性——错误注入下 Pass\(^{\smallfrown}3\) 骤降达 24 个百分点,而 Pass@3 几乎不变
- 多轮对话中成功取决于 Agent 问了什么(\(r=0.87\)),而非问了多少(\(r=0.07\))
- 多模态能力高度领域特异——没有模型在所有领域领先
- 模型排名跨任务组显著转移——异构评估覆盖对真实能力画像至关重要
这些结果表明,构建可部署的(而非仅有能力的)Agent 需要优先关注:一致的错误恢复、领域靶向的多模态感知、交互质量优先于原始规模。Claw-Eval 为这一方向的系统化研究提供了坚实的评估基础设施。
Reference
[1] Claw-Eval: Towards Trustworthy Evaluation of Autonomous Agents
Contact
There may be some errors present. If you find any, please feel free to contact me at wangqiyao25@mails.ucas.ac.cn. I would appreciate it!