📖 Qiyao Wang's Blog

Total Blogs

2026

BEACON：基于里程碑锚定的长程语言 Agent 策略学习方法

June 08, 2026 Chinese
#RL #Credit Assignment #Paper
DV-World：面向真实场景的全面数据可视化 Agent 评测基准

June 08, 2026 Chinese
#Working Agent #Paper #Benchmark
OpenSeeker-v2：以高质量高难度轨迹推动搜索Agent极限 —— 仅用SFT超越工业级CPT+SFT+RL训练管线

June 07, 2026 Chinese
#Search Agent #Paper
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

June 07, 2026 Chinese
#RL #Credit Assignment #Paper
Turn-PPO：基于 Turn 级别优势估计的 PPO 改进 —— 面向多轮 Agent LLM 训练的稳定强化学习方法

June 07, 2026 Chinese
#RL #Credit Assignment #Paper
Workspace-Bench：面向大规模文件依赖的AI Agent工作空间学习评测基准

June 05, 2026 Chinese
#Working Agent #Paper #Benchmark
LRAT：从Agent轨迹中学习检索 —— 迈向Agentic Search时代的检索训练新范式

June 05, 2026 Chinese
#Search Agent #Paper
OpenSeeker：完全开源训练数据，学术团队实现前沿级搜索 Agent

June 05, 2026 Chinese
#Search Agent #Paper
Claw-Eval：面向可信自主 Agent 评估的全轨迹审计与多维评分基准

June 05, 2026 Chinese
#Working Agent #Paper #Benchmark
ClawGym: Part II - ClawGym-Agents and Bench

June 04, 2026 Chinese
#Working Agent #Paper #Benchmark
GDPval: Measuring AI's Economic Impact

June 04, 2026 Chinese
#Working Agent #Paper #Benchmark
ClawGym: Part I - ClawGym-SynData

June 04, 2026 Chinese
#Working Agent #Paper
GRPO: Group Relative Policy Optimization

May. 21, 2026 Chinese
#Basics #RL
Relearning PPO

May. 21, 2026 Chinese
#Basics #RL
RL in LLM: An Introduction

Mar. 26, 2026 Chinese
#Basics #RL
Prompt-OIRL: Query-Dependent Prompt Optimization with Offline Inverse RL

Mar. 25, 2026 Chinese
#RL #Paper
CS336 Assignment 1: Transformers Language Model Architecture

Jan. 01, 2026 Chinese
#Basics #CS336

2025

2024

Pattern Recognition and Machine Learning

Dec. 28, 2024 Chinese
#ML