ProgRM: Build Better GUI Agents with Progress Rewards

Danyang Zhang , Situo Zhang , Ziyue Yang , Zichen Zhu , Zihan Zhao , Ruisheng Cao , Lu Chen , Kai Yu

🏛 Institutions: SJTU AI Institute , SJTU , Jiangsu Key Lab of Language Computing , Suzhou Laboratory
📅 Date: May 23, 2025
📑 Publisher: arXiv
💻 Env: General GUI
🔑 Keywords: reinforcement learning reward model progress reward dense rewards LCS self-annotation ProgRM

TLDR

ProgRM studies how to replace coarse outcome-only rewards with dense step-level progress signals for GUI-agent reinforcement learning. It uses an LCS-based self-annotation method to assign progress labels from successful trajectories and shows that progress rewards outperform outcome reward models across GUI benchmarks.

Open paper arXiv Report issue