← 返回文章归档

近两个月 GUI Agent 论文全景:从“会点击”走向可训练、可验证、可部署的 Computer Use 系统

梳理 2026-04-08 至 2026-06-08 期间可检索到的 90+ 篇 GUI Agent / Computer-Use Agent 相关论文,总结基准环境、GUI grounding、RL 训练、长程记忆、工具融合、安全可靠性等研究趋势。

#GUI Agent#Computer Use#VLM#Research#Survey

目录

  1. 这两个月发生了什么
  2. 我如何界定和检索“GUI Agent 论文”
  3. 总体趋势:GUI Agent 正在从模型能力问题变成系统工程问题
  4. 趋势一:基准和环境爆发,研究重心转向“可验证任务世界”
  5. 趋势二:GUI grounding 从单点点击进入复杂几何交互
  6. 趋势三:RL、过程奖励和自进化成为主流训练路线
  7. 趋势四:长程任务需要记忆、世界模型和上下文压缩
  8. 趋势五:GUI-only 正在让位于 GUI + Tool + CLI 的混合动作
  9. 趋势六:安全、可靠性、隐私成为部署前置条件
  10. 对 macOS 研发效率工具的启发
  11. 近两个月论文清单
  12. 总结

1. 这两个月发生了什么

如果只看单篇论文,GUI Agent 似乎每天都在解决一个局部问题:点得更准、跑得更快、任务更长、评测更真实。但把 2026-04-08 到 2026-06-08 这两个月的论文放在一起看,会发现方向已经明显变化:

GUI Agent 研究不再只是“让多模态模型根据截图点一个坐标”,而是在构建一套可训练、可评测、可恢复、可约束、可部署的 computer-use 系统。

我这次用 arXiv 和 Web 检索了 GUI agent、computer-use agent、GUI grounding、mobile GUI agent、OSWorld、AndroidWorld、ScreenSpot、web agent 等关键词,去重后得到 101 个候选;剔除与 GUI / computer-use 关系较弱的泛 agent、游戏、代码 agent、科学可视化等条目后,整理出 92 篇近两个月相关论文。

这 92 篇里,最明显的不是某一个模型突然碾压所有 benchmark,而是几个方向同时加速:

  • 基准和环境:AndroidDaily、PhoneWorld、MobileGym、CUA-Gym、WindowsWorld、SaaS-Bench、OpenComputer 等试图把评测从静态截图推向真实软件世界和可验证环境。
  • GUI grounding:从 click grounding 扩展到拖拽、区域搜索、缩放一致性、复杂多窗口桌面、代码编辑器里的像素级光标定位。
  • 训练范式:Video2GUI、GUI-CIDER、PRO-CUA、SE-GA、LiteGUI、RL GUI Agents 等把重点放到预训练、mid-training、过程奖励、自进化和小模型蒸馏。
  • 长程任务:MementoGUI、Mem-W、Executable Agentic Memory、ReVision、VLAA-GUI 等关注长期上下文、状态记忆、视觉冗余和恢复策略。
  • 混合动作:ToolCUA、AutoRPA、CLI-Anything、AppAgent-Claw、SkillDroid 等开始承认 GUI 不是唯一交互面,工具、脚本、CLI、RPA 和 API 是更稳的执行通道。
  • 安全可靠性:AgentHijack、MIRAGE、BraveGuard、ProjGuard、CORA、TOCTOU、HalluClear 等把部署风险摆到台前:环境内容会误导 agent,截图会变,权限会被滥用,隐私会泄露。

这篇文章不是逐篇摘要,而是把这些论文当成一个信号:GUI Agent 领域正在从“模型能不能看懂屏幕”进入“系统能不能在真实环境稳定工作”的阶段。

2. 我如何界定和检索“GUI Agent 论文”

这次我采用的是相对宽的定义:只要论文与图形界面智能体、computer-use agent、mobile / desktop / web agent、GUI grounding、软件界面自动化、GUI 安全与可靠性、可验证 GUI 环境或混合 GUI 工具执行强相关,就纳入清单。

检索时间窗口:2026-04-08 至 2026-06-08

主要关键词包括:

  • GUI agent / GUI agents
  • computer-use agent / computer using agent
  • GUI grounding / GUI automation
  • mobile GUI agent / desktop GUI agent / web agent
  • OSWorld / AndroidWorld / ScreenSpot / VisualWebArena
  • GUI trajectory / graphical user interface agent

需要说明的是,“所有论文”在实践里只能定义为“在上述关键词和来源下可检索到、且与 GUI Agent 强相关的论文”。例如有些泛 agent benchmark、游戏 agent、代码 agent、医学或安全论文会在关键词里被召回,但和 GUI agent 主线关系较弱,我没有放进正文趋势统计;完整相关清单放在第 11 节。

3. 总体趋势:GUI Agent 正在从模型能力问题变成系统工程问题

过去一年 GUI Agent 的主线经常是:给模型一张截图、一条指令,让它输出点击坐标或动作序列。这个范式非常重要,因为 GUI agent 的入口确实是视觉理解和空间定位。但近两个月的论文显示,单点能力已经不够了。

真实 computer-use 场景至少包含六层问题:

  1. 感知层:截图是否看得清?元素能否被定位?坐标有没有偏差?多窗口和小控件怎么办?
  2. 动作层:除了点击,还要拖拽、滑动、框选、输入、快捷键、菜单操作、文件拖放。
  3. 任务层:任务往往跨页面、跨 App、跨文档、跨账号状态,不是一步能完成。
  4. 环境层:真实软件会变,页面动态加载,广告、弹窗、第三方内容和权限提示都会干扰 agent。
  5. 训练层:人工轨迹贵,真实环境慢,需要合成数据、视频轨迹、可验证环境和 RL。
  6. 治理层:部署时要有权限边界、安全监控、隐私保护、失败恢复、审计和人工接管。

所以这两个月的研究趋势,可以概括为一句话:

GUI Agent 从“多模态模型 + 屏幕坐标”升级为“模型 + 环境 + 训练数据 + 工具接口 + 安全治理”的完整系统。

这对做 macOS 研发效率工具尤其重要。桌面自动化不是只让模型点一个按钮,而是要在 IDE、终端、浏览器、Finder、系统设置、企业 IM、工单系统之间建立可靠的任务执行链。

4. 趋势一:基准和环境爆发,研究重心转向“可验证任务世界”

这两个月最密集的方向是 benchmark 和 environment。

代表性论文包括:

  • WindowsWorld:面向专业跨应用桌面任务的 process-centric benchmark。
  • AndroidDaily:真实闭源 Android 应用上的可验证 mobile GUI agent benchmark。
  • MobileGym / CUA-Gym / PhoneWorld:为训练和评测提供可并行、可验证、可扩展的 GUI agent 环境。
  • OpenComputer:强调 verifiable software worlds,让 computer-use agent 的任务结果能够被程序化检查。
  • SaaS-Bench:把评测推进到真实 SaaS 专业工作流。
  • HealthAdminBench / MedCUA-Bench:进入医疗行政和临床场景,说明垂直领域评测正在出现。

为什么 benchmark 会突然变多?核心原因是:静态截图 benchmark 已经无法解释真实任务成败。

一个 agent 在 ScreenSpot 上点得准,不代表它能在真实软件里完成任务。真实任务有状态变化、网络延迟、弹窗、版本差异、错误恢复、登录态、权限限制和多步依赖。更关键的是,很多任务的成功不是“点击了某个元素”,而是“最终业务状态正确”。

因此,新的环境论文普遍在追求三个目标:

  • 可验证:任务完成与否可以自动判定,而不只是人工看轨迹。
  • 可扩展:环境可以批量运行,支持 RL 和大规模数据采集。
  • 接近真实软件:覆盖闭源 App、SaaS、Windows 桌面、短视频平台、医疗行政等真实场景。

这说明领域正在补基础设施。没有可验证环境,就很难训练可靠 agent;没有真实软件世界,就很难知道模型是否真的能部署。

5. 趋势二:GUI grounding 从单点点击进入复杂几何交互

GUI grounding 仍然是核心瓶颈,但问题定义正在变宽。

早期 grounding 更像是:给一句话和一张图,输出一个点击坐标。现在的论文已经开始覆盖更细的几何控制:

  • DragOn 专门研究拖拽交互,覆盖文本高亮、单元格选择、元素 resize、slider 操作等,指出 drag grounding 数据比 click grounding 少一个数量级。
  • WinDeskGround 关注复杂多窗口桌面环境中的鲁棒定位。
  • PrecisionCUA 聚焦代码编辑器里的像素级 cursor grounding。
  • DRS-GUI、AutoFocus、UI-Zoomer、Zoom Consistency 关注动态区域搜索、主动视觉搜索、缩放和置信信号。
  • BAMI、GUI-Perturbed、What Happens Before Decoding? 则从 bias、domain randomization、prefill 等角度解释 grounding 为什么会系统性失败。

这背后的结论很明确:GUI agent 的动作空间不是离散按钮,而是连续、几何化、上下文相关的操作空间。

在研发效率场景里,这个问题尤其明显。比如:

  • 在 IDE 里移动光标、选中一段代码、拖拽文件、调整 diff 面板。
  • 在表格或日志界面中框选区域。
  • 在图形化调试器里缩放视图、拖拽节点。
  • 在 macOS 系统设置里处理多窗口和浮层。

这些动作无法只靠“点击按钮”覆盖。未来的桌面 agent 必须同时具备元素级语义 grounding、像素级几何控制和连续动作反馈。

6. 趋势三:RL、过程奖励和自进化成为主流训练路线

另一个明显变化是:越来越多论文不满足于 SFT,而是转向 RL、过程奖励、自蒸馏、自进化和 mid-training。

代表工作包括:

  • Video2GUI:从互联网教程视频合成大规模 GUI 交互轨迹,用于通用 GUI agent 预训练。
  • GUI-CIDER:把 GUI 轨迹转成可内化的因果知识,在 mid-training 阶段提升模型。
  • PRO-CUA:强调 computer-use agent 的过程奖励优化,而不是只看最终成功。
  • SE-GA:memory-augmented self-evolution,让 agent 从自身执行经验中演化。
  • LiteGUI:用 RL 蒸馏紧凑 GUI agent。
  • GUI Agents with Reinforcement Learning:系统性讨论 RL 如何让 GUI agent 更像“数字居民”。
  • Learn where to Click from Yourself:on-policy self-distillation,让模型从自身探索中学习点击。

为什么 RL 在 GUI agent 里变重要?因为 GUI task 天然具有“交互式、部分可观测、长程、可失败恢复”的特点。单步 SFT 学到的是人类演示的平均行为,但真实任务里 agent 需要:

  • 在不确定时探索。
  • 在点错后恢复。
  • 在长程任务里管理风险。
  • 在不同 UI 状态下选择不同策略。
  • 通过环境反馈更新策略。

不过,这也带来新的基础设施要求:RL 需要可验证环境、可并行运行、可靠 reward、失败轨迹诊断和安全 sandbox。这也解释了为什么 benchmark/environment 论文和 RL 论文同时爆发。

7. 趋势四:长程任务需要记忆、世界模型和上下文压缩

长程任务是 GUI agent 走向实际生产力工具的关键,但它也是当前系统最容易崩的地方。

相关论文包括:

  • MementoGUI:学习 multimodal memory control,面向长程 GUI agent。
  • Mem-W:提出 latent memory-native GUI agents。
  • Executable Agentic Memory:让记忆不只是文本摘要,而是可执行的状态和过程结构。
  • ReVision:利用 temporal visual redundancy reduction 扩展 computer-use agent。
  • How Mobile World Model Guides GUI Agents?:探索 mobile GUI world model 对 agent 的指导作用。
  • VLAA-GUI:在 stop、recover、search 等行为上构建模块化 GUI automation 框架。
  • Context-Aware Workflow Decomposition:把移动 UI 标注任务进行上下文感知的 workflow decomposition。

这些论文共同指向一个事实:把完整历史截图和动作全部塞进上下文,是不可持续的。

真实 GUI 任务里,大量状态是重复的:窗口布局、导航栏、列表项、固定控件、历史动作。真正需要保留的是状态变化、未完成目标、关键证据、失败原因和可恢复点。

对 macOS 研发效率工具来说,这可以转化为几个设计原则:

  • 不要只记录屏幕录像,要抽取结构化状态变化。
  • 每一步动作都应该有“为什么做、看到了什么、改变了什么”的可追踪记录。
  • 对长任务保留 checkpoint,支持回滚、重试和人工接管。
  • 将常见工作流沉淀成可复用技能,而不是每次重新规划。

8. 趋势五:GUI-only 正在让位于 GUI + Tool + CLI 的混合动作

过去 computer-use agent 常被定义为“只看屏幕、只用鼠标键盘”。但近两个月的论文显示,纯 GUI 路线正在被混合动作路线挑战。

代表论文包括:

  • ToolCUA:研究 GUI-tool path orchestration,决定什么时候走 GUI、什么时候调用工具。
  • CLI-Anything:提出 agent-native computer use,把 CLI 作为更稳定的执行界面。
  • AppAgent-Claw:标题非常直接:CLI Is All You Need for GUI Automation。
  • AutoRPA:从交互中合成代码,提升 GUI automation 效率。
  • SkillDroid:compile once, reuse forever,强调技能复用。

这并不意味着 GUI 不重要,而是意味着:GUI 是人类接口,但不总是 agent 的最佳执行接口。

如果任务是“修改一段配置并重启服务”,直接调用 CLI 或 API 往往比在图形界面里找按钮可靠。如果任务是“检查某个设计稿视觉状态”,GUI 观察又不可替代。真正有用的 computer-use agent 应该能在 GUI、CLI、API、脚本、快捷指令、RPA 之间切换。

这对 macOS 工具尤其关键。macOS 本身就有丰富的自动化层:AppleScript、Shortcuts、Accessibility API、shell、x-callback-url、应用内 CLI、文件系统、系统偏好设置、日志和通知中心。一个好的研发效率 agent 不应该执着于“模拟人点鼠标”,而应该选择最稳定、最可审计、最小权限的执行通道。

9. 趋势六:安全、可靠性、隐私成为部署前置条件

安全方向在这两个月非常密集,而且不再停留在抽象 prompt injection。

代表论文包括:

  • AgentHijack:评测 computer-use agent 对常见环境污染的鲁棒性。
  • MIRAGE:研究移动 GUI agent 面对用户生成内容时的上下文感知 prompt injection。
  • Temporal UI State Inconsistency / TOCTOU:指出 agent 看到的 UI 状态和执行时状态可能不一致。
  • BraveGuard、ProjGuard、CORA:尝试用监控、低维投影、风险控制等方式提供部署安全边界。
  • HalluClear、On the Reliability of Computer Use Agents:关注幻觉、可靠性和失败诊断。
  • MaskClaw、Mobile GUI Agent Privacy Personalization:把隐私和个性化偏好纳入 GUI agent。
  • Constraining Host-Level Abuse:关注自托管 computer-use agent 的宿主机级滥用问题。

这些论文反复提醒同一件事:GUI agent 的输入不是干净文本,而是复杂环境。环境里可能有广告、评论、网页内容、恶意提示、伪造按钮、遮挡窗口、延迟加载、权限弹窗和用户隐私。

对部署来说,安全不是最后加一个 guardrail,而应该从架构层前置:

  • 权限隔离:agent 默认不能访问所有 App、文件和账户。
  • 动作审计:每一步都要记录观察、决策、动作和结果。
  • 状态校验:执行前后校验 UI 状态,防止 TOCTOU。
  • 风险分级:删除、支付、发送、授权、上传等动作需要更高门槛。
  • 隐私最小化:截图、OCR、日志、轨迹数据要脱敏和可删除。
  • 人工接管:高风险或低置信任务应该主动请求确认。

GUI agent 越接近真实桌面,越像一个有权限的“数字员工”。数字员工必须有制度,而不仅是模型能力。

10. 对 macOS 研发效率工具的启发

结合这两个月趋势,我对 macOS 研发效率工具有几个判断。

第一,桌面 agent 的核心资产不是 prompt,而是可验证工作流。 例如发版检查、CI 失败排障、证书更新、日志采集、崩溃复现、App Store Connect 操作,都应该被拆成可观测步骤、可验证状态和可回滚动作。

第二,Accessibility API + CLI + 文件系统应该共同构成执行层。 对 GUI 能力的投入不能只放在截图定位上,还要打通系统 API、命令行工具、应用内部自动化接口和脚本执行。

第三,研发场景天然适合“技能沉淀”。 每次排障和自动化执行都可以沉淀成 reusable skill:前置条件、命令、检查点、失败处理、权限边界。这比让模型每次从零规划更稳定。

第四,GUI 数据要从“录屏”升级为“结构化轨迹”。 只保存视频不够,要同时保存截图、元素树、动作、OCR、窗口状态、命令输出、文件 diff、验证结果和错误原因。

第五,安全和审计要产品化。 研发工具往往能访问源码、密钥、CI、生产配置和企业账号。GUI agent 的每次动作都应该可追踪、可解释、可撤销。

第六,本地小模型会有机会。 LiteGUI、小模型 domain specialization、edge-side privacy arbitration 等方向说明,未来不一定所有 desktop automation 都要调用超大模型。对于高频、隐私敏感、模式稳定的研发工作流,本地小模型 + 规则 + 工具可能更经济可靠。

11. 近两个月论文清单

下面是本次检索整理出的 92 篇相关论文。分类是为了阅读方便,不代表论文唯一归属;不少论文同时涉及训练、评测、安全或系统设计。

11.1 基准、环境与可验证评测(23 篇)

11.2 Grounding、视觉定位与推理效率(18 篇)

11.3 训练范式、RL 与自进化(10 篇)

11.4 长程任务、记忆与世界模型(7 篇)

11.5 工具融合、RPA 与混合动作(5 篇)

11.6 安全、可靠性与隐私(16 篇)

11.7 其他相关方向(13 篇)

12. 总结

近两个月 GUI Agent 论文给我的最大感受是:这个方向已经过了“demo 驱动”的早期阶段,正在进入“基础设施驱动”的阶段。

下一阶段真正重要的可能不是某个模型在单一点击 benchmark 上多涨几个点,而是下面这些能力能否组合起来:

  • 有足够真实、足够可验证、足够可扩展的任务环境。
  • 有覆盖点击、拖拽、输入、框选、滚动、多窗口和连续控制的 grounding 能力。
  • 有能从视频、轨迹、失败、弱点和环境反馈中学习的训练管线。
  • 有面向长程任务的结构化记忆、状态压缩和失败恢复。
  • 有 GUI、CLI、API、RPA、脚本之间的混合动作编排。
  • 有权限隔离、隐私治理、安全监控和审计机制。

如果把 GUI agent 看作未来个人电脑和移动设备上的“数字执行层”,那它不只是一个 VLM,也不只是一个浏览器插件,而是一套操作系统级的自动化基础设施。

对 macOS 研发效率工具来说,机会也在这里:把开发者每天重复的跨应用工作流转化为可学习、可验证、可复用、可审计的自动化资产。GUI agent 的终局未必是完全替代人,而是让人把更多注意力放在判断、设计和创造上,把稳定、重复、可验证的操作交给系统完成。