OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards

Zehao Li , Zhenyu Wu , Yibo Zhao , Bowen Yang , Jingjing Xie , Zhaoyang Liu , Zhoumianze Liu , Kaiming Jin , Jianze Liang , Zonglin Li , Feng Wu , Bowen Zhou , Zun Wang , Zichen Ding

🏛 Institutions: USTC , Shanghai AI Laboratory , CUHK MMLab , HKUST , NUS
📅 Date: March 19, 2026
📑 Publisher: arXiv
💻 Env: General GUI
🔑 Keywords: reward model reinforcement learning critic framework OmniGUIRewardBench milestone decomposition OS-Themis

TLDR

OS-Themis is a scalable critic framework for GUI reward modeling that breaks trajectories into verifiable milestones and audits the evidence chain before issuing a verdict. It improves AndroidWorld training and filtering loops and introduces OmniGUIRewardBench as a cross-platform benchmark for GUI outcome rewards.

Open paper arXiv Report issue