OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

Raghav Kapoor, Yash Parag Butala, Melisa A Russak, Jing Yu Koh, Kiran Kamble, Waseem AlShikh, Ruslan Salakhutdinov

🏛 Institutions: CMU
📅 Date: February 29, 2024
📑 Publisher: ECCV 2024 (Poster)
💻 Env: Desktop Web
🔑 Keywords: benchmark dataset OmniACT executable programs visually grounded tasks

TLDR

OmniACT introduces a dataset and benchmark for agents that must generate executable programs from a screenshot and a visually grounded natural-language task. It covers both desktop and web applications, and the paper reports that GPT-4 reaches only about 15% of human proficiency on the benchmark.

Open paper Edit on GitHub Report issue