Adaptive Milestone Reward for GUI Agents

Congmin Zheng , Xiaoyun Mo , Xinbei Ma , Qiqiang Lin , Yin Zhao , Jiachen Zhu , Xingyu Lou , Jun Wang , Zhaoxiang Wang , Weiwen Liu , Zhuosheng Zhang , Yong Yu , Weinan Zhang

🏛 Institutions: SJTU , OPPO Research Institute
📅 Date: February 12, 2026
📑 Publisher: arXiv
💻 Env: Mobile
🔑 Keywords: reinforcement learning reward shaping credit assignment milestone reward ADMIRE AndroidWorld

TLDR

ADMIRE is a reinforcement-learning reward design for GUI agents that distills adaptive, verifiable milestones from successful trajectories and pairs them with asymmetric credit assignment. It improves AndroidWorld performance by more than 10 absolute points and transfers to other RL algorithms and environments.

Open paper arXiv Report issue