MagicGUI-RMS: A Multi-Agent Reward Model System for Self-Evolving GUI Agents via Automated Feedback Reflux

Zecheng Li , Zhihui Cao , Wenke Huang , Yudong Zhang , Keying Qi , Rui Wang , Zeyu Zheng , Jian Zhao , Hao Zhu , Hengxin Wu , Yuran Wang , Guitao Fan , Guokun Wu , Yicong Liu , Zhilin Gao , Haikun Xu , He Yang , Minqi Xiang , Xingyu Liu , Zuojian Wang

🏛 Institutions: Honor Device Co. , Ltd.
📅 Date: January 19, 2026
📑 Publisher: arXiv
💻 Env: General GUI
🔑 Keywords: reward model multi-agent system data construction data reflux MagicGUI-RMS

TLDR

MagicGUI-RMS combines a domain-specific reward model with a general-purpose reward model to score GUI trajectories, propose corrections, and feed improved data back into later training rounds. It also introduces an automated reward-data construction pipeline and reports gains in task accuracy and behavioral robustness.

Open paper arXiv Report issue