Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents

Wenkai Yang , Xiaohan Bi , Yankai Lin , Sishuo Chen , Jie Zhou , Xu Sun

🏛 Institutions: Renmin University of China , Peking University , Tencent
📅 Date: February 17, 2024
📑 Publisher: NeurIPS 2024
💻 Env
🔑 Keywords: backdoor attacks agent security query-trigger attacks observation-trigger attacks reasoning-step attacks

TLDR

This paper analyzes backdoor attacks against generic LLM-based agents, including attacks that trigger from user queries or intermediate observations and attacks that alter intermediate reasoning while preserving the final answer. It matters for GUI work because web-shopping agents are one evaluation setting, but the contribution is a broader LLM-agent security analysis rather than a GUI-specific study.

Open paper Report issue