Large Language Models Can Self-Improve At Web Agent Tasks

Ajay Patel , Markus Hofmarcher , Claudiu Leoveanu-Condrei , Marius-Constantin Dinu , Chris Callison-Burch , Sepp Hochreiter

🏛 Institutions: University of Pennsylvania , ExtensityAI , Johannes Kepler University Linz , NXAI
📅 Date: May 30, 2024
📑 Publisher: arXiv
💻 Env: Web
🔑 Keywords: self-improvement synthetic training data WebArena trajectory evaluation trajectory robustness

TLDR

This paper studies whether a web agent can improve by fine-tuning on its own synthetic trajectories rather than collecting extra human demonstrations. On WebArena, the best synthetic-data mixture improves task completion by 31% over the base model and the paper adds trajectory-level metrics for robustness, capabilities, and behavior quality.

Open paper arXiv Report issue