DV-World:面向真实场景的全面数据可视化 Agent 评测基准
数据可视化(Data Visualization, DV)是将抽象数据转化为决策洞见的关键桥梁。然而,现有的 DV Agent 评测基准普遍脱离真实工作流:要么局限于代码沙箱中的单次图表生成,要么假设用户需求完美明确。来自中科院自动化所等机构的研究团队提出了 DV-World——一个包含 260 个任务、覆盖三大真实场景的全面 DV Agent 评测基准。实验表明,即便是最先进模型(如 Gemini-3-Pro、GPT-5.2)的整体得分也不足 50%,在原生电子表格操控、跨范式可视化演进和主动交互对齐方面暴露出显著短板。
- 三大真实DV场景:DV-Sheet(原生电子表格操控,含创建/修复/仪表盘)、DV-Evol(跨范式可视化演进,含5种编程框架)、DV-Inter(模糊需求下的主动交互对齐)
- 260个高质量任务:由18位可视化专家通过严格流程标注构建,数据源自 ExcelForum、Kaggle 等真实社区,覆盖51种图表类型
- SOTA模型整体不足50%:Gemini-3-Pro 在 DV-Sheet 仅 40.48%、DV-Evol 仅 51.44%、DV-Inter 仅 40.43%,与人类基准(80%+)存在巨大差距
- 混合评估框架:融合基于 Rubric 的 MLLM-as-a-Judge(语义-视觉质量)与 Table-value Alignment(数值精度),Pearson 相关系数达 0.86
- 交互质量 > 交互数量:主动交互能带来最高23%的性能增益,但关键瓶颈在于提问质量而非交互频率——针对性不强的交互反而引入噪声
- 数据准确度是首要瓶颈:在 DV-Sheet 的错误中,数据准确度占比超50%(创建)至69%(修复),说明数据绑定的可靠性是当前模型最核心的短板
Motivation:现有 DV 基准的三大断层
LLM 和 MLLM 的快速发展推动了 DV Agent 的涌现,它们在标准化代码沙箱中展示出令人印象深刻的图表生成能力。然而,现有基准仍然被限制在理想化、简化的设定中,无法捕捉真实世界数据可视化的复杂性和模糊性。
具体而言,当前 Agent 面临三个根本性断层:
断层一——环境脱耦(Environmental Decoupling):大多数基准强调开发者风格的代码生成,绕过了以电子表格为中心的可视化工作流——忽略了原生图表对象模型、数据到图表的动态绑定以及 GUI 约束,而这些正是实际电子表格可视化分析的核心。
断层二——仅创建短视(Creation-Only Myopia):现有基准评估的是一次性的图表构建,缺乏对演进式工作的测试——即 Agent 需要在新数据和新需求下修改可视化,同时在跨框架场景中保持结构和美学的一致性。
断层三——完美意图假设(Perfect-Intent Assumptions):评测基于完全明确的指令,忽略了用户需求中的模糊性。真实场景中,用户请求往往不明确、不完整,需要 Agent 主动澄清和对话式对齐,而非盲目执行命令。
核心困境:这三个断层共同导致了一个根本性问题——当前的 DV Agent 评测完全脱离企业级工作流实际。要真正衡量和推动 DV Agent 能力进步,需要一个覆盖原生环境操作、演进式迭代和主动意图对齐全生命周期的评测基准。
DV-World 基准总览
DV-World 由 18 位可视化专家通过严格流程构建,包含 260 个任务,覆盖三大领域:
| 基准 | 任务数 | 环境 | 输入格式 | 交互性 | 开放性 | 评估方法 |
|---|---|---|---|---|---|---|
| 其他数据可视化基准 | ||||||
| SpreadsheetBench | 912 | 原生 | 表格+文本 | ✗ | ✗ | 规则 |
| ChartMimic | 4,800 | 编程 | 图像+文本 | ✗ | ✗ | 多级 |
| VisEval | 2,524 | 编程 | 表格+文本 | ✗ | ✗ | 多级 |
| DV-World (Ours) | 260 | 原生 + N种编程 | 表格+I+文本 | ✓ | Both | 规则+Rubric |
表1:DV-World 与现有基准对比。DV-World 是首个同时覆盖原生电子表格环境、跨编程范式和交互式场景的评测基准
任务定义
DV-Sheet:原生电子表格操控
Agent \(\pi^{\text{sheet}}\) 在电子表格软件中执行端到端的原生可视化编辑:
\[ \mathcal{E}_{\star} = \pi^{\text{sheet}}(\mathcal{I}, \mathcal{E}_{0}) \]其中 \(\mathcal{I}\) 为用户指令,\(\mathcal{E}_{0}\) 为初始工作簿。包含三个子任务:
- DVSheet-Crea(50题):从数据生成原生图表,使用动态范围绑定 \(f\)(非硬编码值),放置到新工作表中
- DVSheet-Fix(50题):诊断并修复一个有缺陷的图表 \(C_{\text{err}}\) 为正确图表 \(C_{\text{fix}}\),涵盖12种常见错误类型(坐标轴缩放、编码错误、过滤逻辑等)
- DVSheet-Dash(30题):将多个图表 \(\{C_i\}\) 和表格 \(\{T_j\}\) 编排为专业化分析仪表盘
DV-Evol:跨范式可视化演进
Agent \(\pi^{evol}\) 将视觉资产进化为可执行代码,通过逻辑合成实现:
\[ \sigma = \pi^{evol}(\mathcal{I}, V, D, \mathcal{L}) \]给定参考图像 \(V\)、新数据集 \(D\) 和修改需求 \(\mathcal{I}\),Agent 必须逆向理解 \(V\) 的视觉语义,在目标语言 \(\mathcal{L}\) 中生成功能性的绘图代码 \(C_{\star}\) 和结果表格 \(T_{\star}\)。覆盖 5 种框架:Python(Matplotlib/Seaborn)、Apache ECharts、Vega-Lite、D3.js、Plotly.js。
DV-Inter:模糊需求下的主动交互对齐
给定一个故意模糊的可视化任务 \(q_0\),Agent \(\pi_{\text{int}}\) 通过 ask_user 工具与双阶段用户模拟器交互:
- 阶段一——交互守门员:检测并拒绝作弊行为(如索要实现代码或内部 Schema 细节)
- 阶段二——响应生成器:基于真实意图和反应规则提供反馈,确保通过真实推理实现意图对齐,而非信息泄露
每个任务平均包含 3.17 个歧义点,涵盖 15 种歧义类型。
评估指标体系
基于 Rubric 的 MLLM 评分
由专家标注的多维度 Rubric 指导 MLLM 评测:
- DVSheet-Crea:可靠性(Reliability, 40%)、恰当性(Appropriateness, 32%)、美学(Aesthetics, 28%)
- DV-Evol:完整性(Integrity, 25%)、一致性(Consistency, 37%)、美学(Aesthetics, 38%)
- DV-Inter:交互(Interaction, 24%)、准确性(Accuracy, 41%)、美学(Aesthetics, 35%)
Table Coverage(表格覆盖率)
\[ \mathrm{S}_{\text{TC}} = \frac{1}{N_{\text{valid}}}\sum_{c \in \mathcal{C}} \mathbb{I}\big(\mathrm{match}(v_{\text{gen}}, v_{\text{gt}})\big) \]对非数值单元格使用精确匹配,浮点数使用容差匹配 \((\epsilon, \delta)\)。
最终评分与特殊指标
DVSheet-Crea & DV-Evol 最终分(\(w=0.5\)):
\[ S_{crea/evol} = w \cdot S_{rubric} + (1 - w) \cdot S_{\text{TC}} \]DVSheet-Fix 成功率(SR):\(\mathrm{SR} = \mathbb{I}\big[ \forall f \in \mathcal{F}_{\text{must}} : \mathrm{Sim}(C_f, G_f) \geq \tau \big], \tau \geq 0.95\)
DV-Inter 交互成功率(ISR):
\[ ISR = (1 - \lambda) + \lambda \cdot \frac{N_{success} - N_{ref}}{N_{req} + 1}, \quad \lambda = 0.5 \]最终分:\(S_{\text{final}} = S_{\text{rubric}} \cdot ISR\)
标注流程与数据统计
数据来源:从 ExcelForum、Kaggle 等真实社区整理超 800 个问题线程,收集电子表格、表格、绘图代码和参考可视化。
三步适配协议:(i) 结构保留——保留合并单元格和不规则布局;(ii) 数值扰动——在保持分布的情况下重新归一化数值;(iii) 元数据匿名化——将可识别实体替换为通用实体。
任务设计:对于生成型任务,采用双阶段工作流减少标注者偏差——五名专家标准化用户问题,七名其他人完成基于精炼提示的任务。对于 DVSheet-Fix,专家向健康工作簿中注入常见真实错误。对于 DV-Inter,从无歧义任务出发系统性引入受控歧义,记录问题-答案模式和修正策略。
关键统计:DV-Sheet 工作簿平均 36.53 列 × 11,583 行(Fix 任务含 74.5% 噪声数据);DV-Evol 平均 52,585 行、73 行起始代码、31 种图表类型;DV-Inter 每任务 3.17 个歧义点、734.54 用户 tokens。
实验
实验设置
评测模型:涵盖开源模型(Qwen3、Qwen3VL、GLM-4.7、DeepSeek-V3.1/3.2、Kimi-K2)和闭源模型(Gemini 系列、GPT 系列、Grok-4)。
基线:DV-Sheet 使用 SheetCopilot 作为电子表格 Agent 基线;DV-Evol 使用 OpenHands 作为主基线。同时开发了统一的 DV-World-Agent——一个基于 ReAct 范式的基线,编排 bash、load_image、render_chart、ask_user 等工具。
评估配置:每个 Agent 在 4 次独立运行中评估取平均;\(w=0.5\) 用于 DVSheet-Crea 和 DV-Evol 以平衡视觉质量与数据保真度;使用 Gemini-2.5-Flash 作为 MLLM 评委。
DV-Sheet 主要结果
| 模型 | Create | Fix SR | Dashboards | 总分 | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Reli. | Appro. | Aesth. | TC | Overall | Insight. | Acc. | Prof. | Aesth. | Overall | |||
| SheetCopilot 基线 | ||||||||||||
| Gemini-3-Pro | 33.8 | 34.4 | 24.3 | 38.8 | 35.1 | 44.0 | 27.7 | 34.7 | 37.3 | 38.3 | 33.0 | 38.0 |
| DV-World-Agent | ||||||||||||
| Gemini-3-Pro (Preview) | 34.7 | 37.0 | 27.3 | 37.5 | 36.1 | 48.0 | 31.8 | 39.5 | 36.2 | 35.9 | 35.3 | 40.48 |
| GPT-5.2 | 31.0 | 37.6 | 32.0 | 35.0 | 34.4 | 42.0 | 29.3 | 37.5 | 37.7 | 38.4 | 34.0 | 37.2 |
| DeepSeek-V3.2 | 30.1 | 29.2 | 26.5 | 25.8 | 28.3 | 36.0 | 33.9 | 40.9 | 33.2 | 42.6 | 36.4 | 33.1 |
| Qwen3-235B-A22B | 7.3 | 14.7 | 13.4 | 16.2 | 14.3 | 22.0 | 15.3 | 19.8 | 22.3 | 15.9 | 17.0 | 17.9 |
| Human | 80.81 | 88.0 | 87.34 | - | ||||||||
表2:DV-Sheet 主要结果。Gemini-3-Pro 以 40.48 领跑,但远低于人类 80%+ 的基准
DV-Evol 主要结果
| 模型 | Python | ECharts | Vega-Lite | D3.js | Plotly.js | 总分 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| MS | TC | Overall | MS | TC | Overall | MS | TC | Overall | MS | TC | Overall | MS | TC | Overall | ||
| OpenHands 基线 | ||||||||||||||||
| Gemini-3-Pro | 49.9 | 64.3 | 57.1 | 29.4 | 65.5 | 47.5 | 22.5 | 57.1 | 39.8 | 34.1 | 67.5 | 50.8 | 28.8 | 64.2 | 46.5 | 48.3 |
| DV-World-Agent | ||||||||||||||||
| Gemini-3-Pro (Preview) | 52.4 | 68.3 | 60.4 | 27.2 | 61.7 | 44.5 | 26.9 | 65.7 | 46.3 | 40.0 | 72.7 | 56.3 | 29.5 | 70.0 | 49.8 | 51.44 |
| Gemini-3-Flash | 47.9 | 69.5 | 58.5 | 23.6 | 68.4 | 46.0 | 25.6 | 65.2 | 45.4 | 31.6 | 68.1 | 49.8 | 26.1 | 69.0 | 47.5 | 49.5 |
| Qwen3-VL-8B | 33.1 | 32.9 | 33.0 | 9.3 | 21.1 | 15.2 | 14.9 | 31.7 | 23.3 | 6.1 | 26.8 | 16.5 | 5.4 | 29.3 | 17.3 | 21.1 |
| Human | - | 85.23 | - | - | 82.11 | - | - | 88.46 | - | - | 85.21 | - | - | 84.44 | - | - |
表3:DV-Evol 主要结果。跨5种框架的性能差异显著——Python 最强,D3.js 和 Plotly.js 的复杂性暴露了跨范式语义迁移的瓶颈
DV-Inter 主要结果
| 模型 | MLLM-Score Overall | ISR | Score | User Cost |
|---|---|---|---|---|
| Grok-4 | 51.1 | 79.6 | 40.43 | $0.051 |
| DeepSeek-V3.2 | 51.3 | 74.1 | 37.9 | $0.032 |
| GPT-5.2 | 50.6 | 69.3 | 35.1 | $0.021 |
| Gemini-3-Pro | 50.1 | 66.8 | 34.4 | $0.017 |
| Qwen3-235B | 29.1 | 74.6 | 20.9 | $0.032 |
表4:DV-Inter 主要结果。顶配模型 Grok-4 仅 40.43,ISR 和 MLLM-Score 共同构成瓶颈
深度分析
原生电子表格操控分析
关键发现一——数据准确度是核心瓶颈:在 DVSheet-Crea 中,数据准确度错误占超 50%;在 DVSheet-Fix 中更是高达 69%。说明当前模型在管理可靠的数据到图表的动态绑定方面存在根本性缺陷。
关键发现二——修复能力与错误类型强相关:Agent 在过滤逻辑修复上表现较好,但在坐标轴缩放和编码错误上显著挣扎——这些错误需要精确的几何映射,而非简单的规则调整。
关键发现三——数据规模对性能形成系统性压力:随着表格规模增大,仪表盘(Dashboard)性能持续下降,证实大数据集对推理稳定性和布局一致性构成实质性挑战。
跨范式可视化演进分析
| 模型设置 | Python | ECharts | Vega-Lite | D3.js | Plotly.js |
|---|---|---|---|---|---|
| Gemini-3-Pro | 60.4 | 44.5 | 46.3 | 56.3 | 49.8 |
| - w/o load_image | 58.1 | 41.3 | 46.3 | 48.7 | 48.4 |
| GPT-5.2 | 55.8 | 39.8 | 42.3 | 38.5 | 38.8 |
| - w/o load_image | 54.6 | 39.2 | 40.1 | 37.2 | 35.3 |
表5:load_image 工具消融实验。移除该工具导致 D3.js 上 Gemini-3-Pro 下降 7.69%,证明视觉反馈对高复杂度可视化演进的必要性
关键发现一——load_image 是语义保真度的关键:消融实验中,移除 load_image 工具导致跨模型性能全面下降,Gemini-3-Pro 在 D3.js 上损失高达 7.69%。说明在高复杂度可视化演进中,视觉反馈是不可或缺的补偿机制。
关键发现二——框架特定的错误模式:D3.js 等底层库引发高视觉样式错误率(Gemini-3-Flash 达 40.96%),而 ECharts/Vega-Lite 等声明式框架则暴露数据映射和组织的弱点(Gemini-3-Pro 在 ECharts 的数据一致性错误达 45.20%)。
交互主动性与对齐分析
关键发现——提问质量 > 提问数量:转为交互式对齐后,Gemini-3-Pro 获得最高 23.0% 的性能增益,且其有效提问与任务质量的关联最强。而 Grok-4 和 DeepSeek-V3.2 虽然交互频率高,但并非总能转化为有效结果——针对性不强的交互反而引入噪声,甚至导致弱模型性能下降。识别关键歧义是达成专业级可视化的核心挑战。
元评估:框架可靠性验证
用户模拟器分析
| 模拟器模型 | 保真度 ↑ | Pearson ρ ↑ | p-value |
|---|---|---|---|
| GPT-5-mini (Ours) | 88.67 | 0.86 | < 0.04 |
| - w/o Reaction Rules | 84.00 | 0.78 | < 0.05 |
| - w/o Stage 1 Filtering | 85.33 | 0.80 | < 0.05 |
| Gemini-3-Flash | 86.00 | 0.81 | < 0.02 |
| O4-mini | 85.33 | 0.83 | < 0.03 |
表6:用户模拟器消融实验。GPT-5-mini 达到 88.67% 保真度和 0.86 Pearson 相关系数,与人类行为高度一致。移除 Reaction Rules 或 Stage 1 过滤显著降低对齐度
MLLM 评委验证
| 评委模型 | Item-level (Weighted κ) | Case-level (ICC(A,1)) | Model-level (Kendall's τ) |
|---|---|---|---|
| Human-Human | 0.903 | 0.932 | 1.000 |
| Gemini-2.5-Flash | 0.821 | 0.850 | 1.000 |
| Gemini-3-Flash | 0.815 | 0.842 | 1.000 |
| GPT-4.1 | 0.791 | 0.831 | 1.000 |
| GPT-4o | 0.778 | 0.799 | 0.800 |
表7:MLLM 评委与人类评分的对齐度。Gemini-2.5-Flash 在 item-level(κ=0.821)和 case-level(ICC=0.850)上与人类专家对齐度最高。跨评委模型排名保持稳定
在 210 个任务的验证集上,人类评审间一致性达到 ICC(A,1) = 0.932(加权 κ = 0.903),为自动化评审提供了实用上界。Gemini-2.5-Flash 在所有 MLLM 评委中与人类评分对齐度最高(κ=0.821, ICC=0.850),且跨评委模型的相对排名保持稳定,排除了评委家族偏差。
总结
DV-World 的核心贡献可以归纳为:
① 首个全生命周期 DV Agent 评测基准:覆盖从原生电子表格操控(创建、修复、仪表盘)、跨范式可视化演进(5种编程框架)到模糊需求下的主动交互对齐的完整 DV 工作流,填补了现有基准脱离真实场景的断层。
② 高质量数据构建体系:由 18 位可视化专家通过严格的双阶段标注流程构建,数据源自真实社区,覆盖 51 种图表类型。三步适配协议确保数据的功能真实性和语义精确性。
③ 混合评估框架:创新性地将基于 Rubric 的 MLLM-as-a-Judge(语义-视觉质量)与 Table-value Alignment(数值精度)相结合,Pearson 相关系数达 0.86,与人类判断高度一致。
④ 揭示关键能力缺口:实验表明,即便是最强的 Gemini-3-Pro 和 GPT-5.2 整体得分也不足 50%,与人类 80%+ 存在巨大差距。数据准确度是首要瓶颈(占 50-69% 错误),交互质量比交互数量更重要。
核心启示:DV-World 为社区提供了标准化的标尺来量化和加速可靠 DV Agent 的进展。未来的发展方向清晰:从一次性代码生成转向涵盖环境掌控、语义可迁移和主动意图对齐的综合生命周期管理。要突破当前的性能瓶颈,Agent 必须在数据绑定可靠性、误差诊断推理和上下文感知的主动交互方面取得实质性进步。
Reference
[1] DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios — Jinxiang Meng, Shaoping Huang, Fangyu Lei, et al. arXiv:2604.25914, 2026.
Contact
There may be some errors present. If you find any, please feel free to contact me at wangqiyao25@mails.ucas.ac.cn. I would appreciate it!