2026-06-15 14 分钟阅读阅读加载中... 次访客加载中... 人

LivingScreen：GUI Agent 不能再假装屏幕是静止的

解析 arXiv 2026 论文 Benchmarking Living-Screen-Native GUI Agents on Short-Video Platforms。文章从 GUIAgent 专家视角评估 LivingScreen 对动态屏幕、观察控制、短视频原生界面和 APP 自动化测试的启发。

#GUI Agent#Computer Use#Benchmark#Dynamic UI#Mobile Agent

为什么这篇论文值得 GUIAgent 领域关注
背景与问题定义：静态屏幕假设正在失效
Living-Screen-Native GUI Agent 的核心形式化
LivingScreen benchmark：环境、任务与指标
实验结果：强模型输在“看多久、看什么”
专家点评：真正贡献、被高估部分、工程落地建议
对 APP 自动化测试 / 移动端 QA 的启发
局限性与未来方向
参考链接

1. 为什么这篇论文值得 GUIAgent 领域关注

Benchmarking Living-Screen-Native GUI Agents on Short-Video Platforms 是一篇值得认真读的 GUIAgent benchmark 论文。论文地址：https://arxiv.org/abs/2606.04701，项目地址：https://github.com/BITHLP/LivingScreen。它的价值不在于再做一个通用 GUI grounding 排行榜，而在于挑出了 GUI Agent 评测中长期被默认、但在真实 App 场景里经常失效的前提：屏幕并不总是在两次动作之间静止等待 agent。

从领域位置看，LivingScreen 的贡献比“又一个短视频任务集”更关键。它把 GUI Agent 的能力边界从 click / type / scroll / grounding 推到 observation control（观察控制）：agent 不仅要决定下一步点哪里，还要决定是否继续看、看多长、看哪个区域、用截图还是视频片段、以及愿意为动态信息支付多少时间和 token 成本。这一点对短视频、直播、信息流、IM、地图导航、交易行情、风控审核等移动 App 测试场景尤其重要。

LivingScreen 对 GUI Agent 场景的定位：右上角同时具备环境自主变化和 agent 原生动作。

上图是论文最关键的定位图。传统 Video QA 有动态内容，但模型通常直接拿到视频文件，不需要在 GUI 中行动；传统 GUI benchmark 有点击和输入，但多数假设屏幕在 action 之间相对静止。短视频、直播、信息流、IM 消息流、地图导航、交易行情、运营监控和异常录屏都处在右上角：界面自己在变，agent 也要主动操作它。

可以用一个 GUIAgent 专家框架来审视这篇论文：

维度	LivingScreen 的覆盖	专家判断
GUI grounding	涉及点赞、收藏、评论、举报、进度条跳转等短视频控件	grounding 不是难点核心，但动作仍要落到原生 UI
屏幕理解	需要理解视频内容、作者信息、评论、字幕、标签、动态播放状态	把 GUI 理解从静态截图扩展到时间窗口
计划与动作执行	browse → watch → decide → operate 的闭环	强调观察策略和动作策略耦合
长程任务	L2/L3 任务需要跨多个视频整合证据	长程不一定是很多点击，也可以是持续观察和选择性采样
RL / 过程监督	本文主要是 benchmark，但 watch ratio 可变成过程奖励	为“看得少但看得准”的训练目标打基础
benchmark 可信度	浏览器复刻短视频平台、三层任务、SR/NS/WR 联合指标	方向重要，但平台与数据仍是简化版
OS/Web/Mobile/Desktop 迁移	聚焦短视频移动式界面，但动态屏幕问题跨平台存在	对 APP 自动化测试中的信息流、直播、IM、地图、行情和监控页面同样有启发
工程可部署性	Playwright/Flask/browser replica，可复现性较好	离真实 App、真实推荐流、账号态还有距离
安全与隐私	涉及内容审核、偏好模拟、短视频数据	需警惕自动化浏览、隐私数据和内容治理风险

2. 背景与问题定义：静态屏幕假设正在失效

过去 GUI Agent 的主流抽象大致是：给定 instruction、当前 screenshot / DOM / accessibility tree、历史动作，模型输出下一步 action。这个抽象默认一个隐含条件：agent 不动作，环境就基本不动。WebArena、OSWorld、AndroidWorld、VisualWebArena、MacArena、WindowsWorld 等在线 benchmark 已经把 agent 放进真实或半真实环境，但多数任务仍然以“状态由 agent 的点击/输入推动”为主。

LivingScreen 指出，短视频平台违反了这个条件。视频播放不会等 agent 思考；评论、进度条、画面、字幕会随时间变化；下一条内容可能自动加载；用户是否应继续看，取决于已经看到的信息和任务目标。这让 GUI Agent 问题从离散步控制扩展到连续时间控制。

这不是短视频场景的小众问题。真实 App 里同样存在大量 living screen：

短视频、直播、信息流页面持续刷新和自动播放；
IM / 社区 / 评论区不断出现新消息、新回复和状态变更；
地图导航、外卖配送、打车进度、物流轨迹随时间变化；
交易行情、风控告警、运营监控页面持续滚动；
H5 / Hybrid App 中的活动页、弹窗、倒计时、异步加载会改变可操作状态；
录屏回放、异常视频和崩溃前行为轨迹需要边看边判断。

在这些场景里，“截一张图然后决策”很容易失败。截得太早，关键信息还没出现；看得太久，成本和延迟爆炸；看错区域，拿到大量无关信息；只看最终帧，丢掉过程事件。LivingScreen 的价值在于，它把这些问题归纳为一个可评测的能力：agent-initiated observation（由 agent 主动发起和控制的观察）。

3. Living-Screen-Native GUI Agent 的核心形式化

论文把标准 GUI agent 的 POMDP 做了两个关键改动。

第一，环境状态不只在 agent 动作后跳变，还会在动作之间连续演化。论文用自主流 Φ 表示这一点：视频播放、进度条前进、画面变化、评论内容展示等状态变化，不需要 agent 点击也会发生。

第二，观察不再是固定的一帧 screenshot，而是由 action 诱导的时间窗口。也就是说，agent 可以决定执行 watch，并选择观察时长、采样方式或视频片段。观察本身也有成本。

这个形式化听起来抽象，但它直接改变了 agent runtime 的设计：

Observation 变成 action 的一部分
传统 GUI agent 里，观察通常由环境自动给出；LivingScreen 里，观察是 agent 主动买来的信息。watch 太少会漏证据，watch 太多会浪费预算。
信息获取和任务执行耦合
点赞、评论、举报这类动作是否正确，取决于 agent 之前是否观察到了足够证据。动作失败不一定因为按钮没点准，也可能因为观察策略错了。
评测必须同时看准确率和信息效率
如果一个 agent 把每个视频都从头看到尾，最终答对并不代表智能；如果它只截一帧就猜，成本低但不可靠。LivingScreen 因此把 watch ratio 作为一等指标。
长程任务的含义发生变化
长程不再只是 30 步点击链，也可以是跨多个动态内容片段的证据积累。agent 需要在“继续观察当前视频”和“切换到下一条”之间做探索-利用权衡。

4. LivingScreen benchmark：环境、任务与指标

LivingScreen 包含三个核心组件：高保真的浏览器短视频平台复刻、三层任务套件，以及同时衡量准确性和效率的指标。

LivingScreen 的任务和数据构造示意：动态视频流、短视频 UI、不同任务层级组合在一起。

论文的任务分为三层：

层级	主要测试能力	例子
L1 GUI action	基础 GUI 原子动作	like、collect、comment、report、swipe、seek
L2 Understanding	跨 feed 的内容理解与证据整合	上下文关联、事件判断、特征分析、时空聚合
L3 Application	闭环浏览、判断和操作	fact-checking、内容审核、偏好模拟

这里的设计比单纯“视频问答”更接近 GUI Agent。因为 agent 不是直接拿 mp4 文件做离线理解，而是在一个 native-like GUI 中通过 watch、swipe、seek、comment 等动作获取信息和完成任务。论文项目页还说明，环境以 Flask 后端和 Playwright/Chromium headless 运行，视频数据来自公开短视频相关数据集，包括 FakeSV、LiveBot、Video-SafetyBench 等。

LivingScreen 复刻平台的 UI 组成：作者信息、进度条、侧边动作栏、评论抽屉和评论框都成为 agent 可操作对象。

评测指标有三个：

SR（Success Rate）：任务是否完成或回答是否正确；
NS（Number of Steps）：episode 中工具调用 / 动作步数，衡量操作成本；
WR（Watch Ratio）：agent 通过 watch 观看的 feed 时长占总 feed 时长比例，衡量观察成本。

这组指标是本文最值得借鉴的地方。很多 GUI benchmark 只看 final success，最多再看步数。但 LivingScreen 明确区分了“操作成本”和“观察成本”。对于动态界面，观察成本不只是 token 和延迟，还会影响任务时效：监控告警、直播内容审核、CI 日志排障都不允许 agent 无限制地看。

5. 实验结果：强模型输在“看多久、看什么”

论文的主表比较了视频输入 MLLM、多图输入 MLLM 和人类表现。核心结论很清楚：没有被测 frontier model 达到人类的 cost-accuracy trade-off。

Model	Average SR	Average NS	Average WR	L1 Action SR	L2 Understanding SR	L3 Application SR
Human	94.0	-	9.7	100.0	88.0	94.1
Gemini-3.5	69.3	8.0	11.9	90.4	60.2	57.4
Gemini-3.1	66.2	7.6	11.6	87.7	64.2	46.8
Seed-2.0	64.8	8.1	15.5	88.6	68.3	37.6
Seed-1.8	65.6	9.5	25.1	86.8	64.4	45.5
Claude-Opus	45.6	9.7	8.5	64.0	45.1	27.7
GPT-5.5	29.8	10.1	14.4	50.9	38.4	0.0

从 GUIAgent 专家视角，这张表说明三件事。

第一，L1 基础动作不是最大瓶颈。强模型在 Action 层能到 80%–90% 左右，说明短视频 UI 的基础按钮操作并非不可学。真正的坍塌发生在 L2/L3：需要理解内容、跨视频整合证据、再执行判断时，成功率大幅下降。

第二，WR 暴露了模型策略的不稳定。人类平均 WR 约 9.7，说明人类会选择性观察；Seed-1.8 平均 WR 达 25.1，L3 WR 甚至到 53.1，表示它经常过度观看；另一些模型 WR 较低但 SR 也低，说明可能欠观察。

第三，强模型的视觉/语言能力不能自动转化为 observation control。视频理解模型可以回答视频问题，GUI agent 可以点按钮，但 living-screen-native 任务要求模型把两者合并成一个预算受限的闭环策略。

论文进一步统计了 observation behavior：

不同模型在 L2/L3 上的视频观察行为分布：过度观察和不足观察同时存在。

过度观察 / 不足观察的轨迹级统计也很有意思：

Agent	Under ↓	Over ↓	Both ↓
Gemini-3.5	51	29	13
Gemini-3.1	39	25	9
Seed-2.0	61	27	20
Seed-1.8	48	43	24

这说明 failure mode 不是单一的“模型太懒，不愿意看”，也不是单一的“模型太啰嗦，看太多”。同一个 agent 可能在某些任务里还没看到关键证据就行动，在另一些任务里又把无关内容看很久。论文还做了 prompt-level intervention：让 Seed-1.8 “少看”“多看”或“模仿人类”。结果 Default 的 SR 是 65.6；Watch-Less 降到 56.3，Watch-More 降到 57.1，Mimic-Human 降到 59.4。这说明 observation control 不是靠一句 prompt 就能解决的，需要训练、策略建模或显式预算控制。

6. 专家点评：真正贡献、被高估部分、工程落地建议

6.1 这篇论文真正推进了什么？

LivingScreen 的真正贡献有三点。

第一，它把 GUI Agent 的环境模型从“动作驱动状态变化”扩展到“环境自主连续变化”。 这是一个很基础但重要的抽象修正。很多 desktop / mobile / web benchmark 默认 agent 的 action 是状态变化主因，但真实数字世界里，时间本身就是状态转移函数的一部分。

第二，它把观察控制变成可度量能力。 过去我们常说 agent 需要更好的 screen understanding，但很少问：agent 应该什么时候截图、什么时候录屏、什么时候等待、什么时候停止观察？LivingScreen 用 WR 把这个能力量化出来。

第三，它提醒 GUI Agent benchmark 不应只覆盖办公和网页表单。 短视频平台代表一种高动态、多模态、原生 GUI 与内容流交织的应用形态。未来 agent 会越来越多处理动态媒体、监控流、会议流和实时协作流，LivingScreen 是一个早期切片。

6.2 它和已有方向相比，位置在哪里？

如果按“静态/动态”和“是否 native GUI action”来放置：

ScreenSpot、静态 GUI grounding：主要测单帧定位；
WebArena / VisualWebArena：在线网页任务，有 GUI action，但页面通常不会自主连续变化；
OSWorld / WindowsWorld / MacArena：桌面任务，更强调多应用和状态变更，但大部分仍是 agent action 驱动；
Video QA：动态内容强，但通常没有 native GUI action；
LivingScreen：动态内容 + GUI 原生动作 + 观察成本。

所以它不是替代 OSWorld 或 AndroidWorld，而是补了一个被漏掉的象限。它也和近期 DynamicGUIBench 一类工作相邻，但 LivingScreen 的特殊性在于短视频内容流让“观察多久”本身成为主要决策。

6.3 哪些结论可能被高估？

短视频平台复刻不等于真实平台。 浏览器 replica 有助于可复现，但真实抖音、TikTok、小红书、B 站等平台有账号态、推荐算法、反自动化机制、网络波动、权限弹窗、广告、直播、多语言和社区治理规则。benchmark 成绩不应直接外推到真实平台自动化。

WR 不是全部观察成本。 watch ratio 很有启发，但真实系统还要考虑视频分辨率、帧率、模型 token/视觉编码成本、延迟、API 价格、缓存复用，以及用户等待时间。一个低 WR agent 也可能因为高帧率或高分辨率消耗巨大。

任务分布仍然偏媒体内容理解。 LivingScreen 对 GUI action 的要求相对有限，主要难点是动态内容观察与理解。它对复杂桌面工作流、跨应用文件状态、权限和不可逆操作的覆盖不足。

模型榜单可能受 action space 和 prompt 设计影响。 watch、swipe、seek 等工具抽象如何暴露，会显著影响模型表现。不同 agent runtime 的等待、截图、历史保留策略也会改变结果。因此模型排名不应被过度解读。

6.4 工程落地建议

如果要把 LivingScreen 的思想迁移到生产 GUI agent，我建议复现的不是短视频任务，而是这套 观察预算 + 动态状态验证 机制：

把 observation 显式建模为工具调用，而不是 runtime 自动无限截图；
每次观察记录窗口、时长、分辨率、来源区域、token/延迟成本；
为动态任务设置 stop condition：看到足够证据就停止，而不是固定等待；
把 over-observation 和 under-observation 纳入失败诊断；
对动态 UI 保存时间轴 trace，而不是只保存最后一帧。

这对训练也很重要。未来 GUI Agent 的过程监督不应只奖励“点对了”，还要奖励“在合适时间以合适成本观察到了必要证据”。

7. 对 APP 自动化测试 / 移动端 QA 的启发

对 APP 自动化测试来说，LivingScreen 的启发非常直接：许多移动端测试失败并不是因为 selector 找不到，而是因为测试系统没有正确处理“界面正在变化”这件事。

7.1 动态 APP 页面不能只用截图 + 点击建模

Appium、UIAutomator、XCUITest、Maestro 这类工具通常擅长描述“找到元素、点击、输入、断言”。但在短视频、直播、IM、地图、交易行情、外卖配送、活动倒计时这类页面里，关键状态并不一定稳定停在某一帧。传统脚本容易出现三类问题：

截图太早，关键内容还没出现，导致误判；
等待太久，测试时长膨胀，回归套件不可用；
只断言最终页面，漏掉中间过程中的闪退、卡顿、错误 toast、短暂异常状态。

更合理的测试 runtime 应该提供：

observe_static(region)
observe_stream(region, duration, fps, stop_when)
wait_for(pattern | ui_state | timeout)
assert_timeline(events, oracle)
summarize_trace(video, ui_events, logs)

也就是说，动态观察要成为自动化测试工具协议的一等公民，而不是在脚本里用 sleep(5) 勉强模拟。

7.2 Oracle 不应只判断最终状态，还要判断时间窗口

LivingScreen 的 WR 指标提醒我们：动态 App 测试里的 oracle 也需要时间维度。例如：

直播间进场后，评论区是否在合理时间内出现新消息；
地图导航中，定位点是否持续刷新，而不是停在旧位置；
支付后，成功页是否在 3 秒内出现，且中间没有错误 toast；
视频流播放时，加载 spinner 是否超过阈值；
IM 收到消息后，会话列表、未读数、通知栏是否按顺序更新。

这些 oracle 不是“最后一张截图是否正确”，而是“某个事件是否在正确时间窗口内出现，并且没有伴随不应出现的异常事件”。

7.3 测试平台需要区分 over-observation 和 under-observation

移动端回归测试经常被两类成本拖垮：一类是等待不足导致 flaky，另一类是等待过度导致执行时间不可控。LivingScreen 把 under-observation / over-observation 单独统计出来，对测试平台很有借鉴价值。

对应到 APP 自动化测试，可以把失败归因拆得更细：

selector failure：元素定位失败；
action failure：点击、滑动、输入没有生效；
under-observation：断言太早，证据不足；
over-observation：等待策略保守，浪费执行时间；
oracle failure：动态事件出现了，但测试断言无法表达；
environment drift：网络、账号态、推荐流或系统权限导致轨迹偏移。

这比简单记录“case failed”更有助于自动修复测试脚本和优化等待策略。

7.4 对移动端 GUIAgent benchmark 的建议

如果为 APP 测试场景设计下一代 GUIAgent benchmark，LivingScreen 提供了一个很好的方向，但任务应进一步贴近真实 QA 闭环：

在短视频 App 中判断视频是否卡顿、黑屏、音画不同步，并自动采集证据；
在 IM App 中等待新消息、撤回、已读、未读数变化，并验证多端同步；
在地图 / 外卖 / 打车 App 中验证位置、ETA、状态流是否持续更新；
在电商直播间验证弹幕、购物袋、库存、优惠券倒计时和下单链路；
在 H5 / Hybrid 活动页验证倒计时、异步加载、弹窗和跳转链路；
在异常录屏中定位导致失败的关键 UI 事件，并生成可复现测试步骤。

这些任务比“点击按钮是否成功”更能区分一个 GUIAgent 是否真的能服务移动端 QA。

8. 局限性与未来方向

LivingScreen 还有几个明显局限。

第一，它主要聚焦短视频平台，GUI 动作空间相对窄。短视频是动态屏幕的典型代表，但不是所有动态 GUI。APP 信息流、直播、地图、IM、交易行情、H5 活动页和异常录屏各有不同动态结构。

第二，它对真实平台复杂性的建模仍有限。浏览器 replica 可以保证可复现，但真实移动 App 的触控、系统权限、推荐流、网络状态、账号态和反爬机制都会带来额外问题。

第三，评测仍以模型调用为主，还没有给出解决 observation control 的训练算法。论文证明了问题存在，但如何训练 agent 学会预算化观察，仍需要后续工作。

第四，安全和治理不是本文主线。短视频任务里的内容审核、举报、偏好模拟都有潜在双重用途；一旦 agent 能大规模浏览和操作真实内容平台，就必须考虑平台规则、用户授权、审计和限速。

后续最值得做的方向有三类：

Observation policy learning：把 watch / wait / screenshot / clip 当成可学习动作，用成本约束训练观察策略；
Dynamic trace verifier：把动态界面转成时间轴事件，支持 step-level 诊断、过程奖励和测试失败归因；
Mobile QA-oriented dynamic GUI benchmarks：从短视频扩展到直播、IM、地图、交易行情、H5 / Hybrid 页面和异常录屏分析。

9. 总结

LivingScreen 的核心价值不是告诉我们哪个大模型最会刷短视频，而是提醒 GUI Agent 领域：computer-use agent 的世界不是静态截图序列，而是会自己流动的时间系统。一旦环境会自主变化，agent 的关键能力就不只是 grounding、planning、clicking，还包括观察控制、等待策略、证据足够性判断和信息成本优化。

对 APP 自动化测试来说，这个视角尤其重要。真正可用的移动端 GUIAgent 不仅要会点按钮、滑动页面、填写表单，还要会观察动态内容流、等待异步状态、判断证据是否足够、控制观察成本，并把观察过程转化为可审计的测试 trace。LivingScreen 把这个问题做成了一个清晰 benchmark，值得作为未来移动端 QA agent 评测设计的一个新锚点。

参考链接

论文：Benchmarking Living-Screen-Native GUI Agents on Short-Video Platforms，arXiv:2606.04701
项目：BITHLP/LivingScreen，https://github.com/BITHLP/LivingScreen
对比锚点：OSWorld、AndroidWorld、VisualWebArena、WindowsWorld、MacArena
相关方向：Dynamic GUI benchmark、Video QA、GUI grounding、process reward / observation policy learning