UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

Haoming Wang , Haoyang Zou , Huatong Song , Jiazhan Feng , Junjie Fang , Junting Lu , Longxiang Liu , Qinyu Luo , Shihao Liang , Shijue Huang , Wanjun Zhong , Yining Ye , Yujia Qin , Yuwen Xiong , Yuxin Song , Zhiyong Wu , Aoyan Li , Bo Li , Chen Dun , Chong Liu , Daoguang Zan , Fuxing Leng , Hanbin Wang , Hao Yu , Haobin Chen , Hongyi Guo , Jing Su , Jingjia Huang , Kai Shen , Kaiyu Shi , Lin Yan , Peiyao Zhao , Pengfei Liu , Qinghao Ye , Renjie Zheng , Shulin Xin , Wayne Xin Zhao , Wen Heng , Wenhao Huang , Wenqian Wang , Xiaobo Qin , Yi Lin , Youbin Wu , Zehui Chen , Zihao Wang , Baoquan Zhong , Xinchun Zhang , Xujing Li , Yuanfan Li , Zhongkai Zhao , Chengquan Jiang , Faming Wu , Haotian Zhou , Jinlin Pang , Li Han , Qi Liu , Qianli Ma , Siyao Liu , Songhua Cai , Wenqi Fu , Xin Liu , Yaohui Wang , Zhi Zhang , Bo Zhou , Guoliang Li , Jiajun Shi , Jiale Yang , Jie Tang , Li Li , Qihua Han , Taoran Lu , Woyu Lin , Xiaokang Tong , Xinyao Li , Yichi Zhang , Yu Miao , Zhengxuan Jiang , Zili Li , Ziyuan Zhao , Chenxin Li , Dehua Ma , Feng Lin , Ge Zhang , Haihua Yang , Hangyu Guo , Hongda Zhu , Jiaheng Liu , Junda Du , Kai Cai , Kuanye Li , Lichen Yuan , Meilan Han , Minchao Wang , Shuyue Guo , Tianhao Cheng , Xiaobo Ma , Xiaojun Xiao , Xiaolong Huang , Xinjie Chen , Yidi Du , Yilin Chen , Yiwen Wang , Zhaojian Li , Zhenzhu Yang , Zhiyuan Zeng , Chaolin Jin , Chen Li , Hao Chen , Haoli Chen , Jian Chen , Qinghao Zhao , Guang Shi

🏛 Institutions: ByteDance Seed
📅 Date: September 2, 2025
📑 Publisher: arXiv
💻 Env: General GUI
🔑 Keywords: data flywheel multi-turn reinforcement learning hybrid GUI-terminal environment unified sandbox online-Mind2Web UI-TARS-2

TLDR

UI-TARS-2 studies how to scale native GUI agents with a data flywheel, stabilized multi-turn reinforcement learning, hybrid GUI-plus-terminal environments, and a unified sandbox. It reports strong results across GUI benchmarks, games, information-seeking tasks, and software-engineering settings, and also analyzes training dynamics and parameter interpolation during RL.

Open paper arXiv Report issue