archive index

文章归档

$ grep 66/66

2026-07-13 GUI AgentMobile Agent

Xiaomi-GUI-0：Mobile GUI Agent 真正难的是跑在真机上

解析 2026 年 Xiaomi-GUI-0 Technical Report：它把 Mobile GUI Agent 的训练、rollout、异常页修复和 RealMobile 评测放进真机闭环，在 RealMobile 上达到 72.0% 成功率、AndroidWorld 上达到 78.9%。文章从移动端 QA 与 APP 自动化测试视角讨论真实设备、异常状态、失败飞轮、自动验证和工程边界。

2026-07-10 GUI AgentComputer Use

Learning from Failure：GUI Agent 的失败轨迹，不该只当垃圾丢掉

解析 Stanford/Tsinghua 2026 论文 Learning from Failure：它把 computer-use agent 的自改进从只收集成功轨迹，推进到利用失败轨迹诊断 grounding、循环、知识和工具能力问题，并在 OSWorld 上把 OpenCUA-72B 从 42.3% 提升到 48.9%。文章从移动端 QA 与 APP 自动化测试视角讨论其贡献、证据和工程边界。

2026-07-08 GUI AgentComputer Use

UI-MOPD：跨桌面和手机训练 GUI Agent，不能只把数据混在一起

解析 arXiv 2026 论文 UI-MOPD：Multi-Platform On-Policy Distillation for Continual GUI Agent Learning。文章从 GUIAgent 与移动端 QA 视角讨论 Uni-GUI 数据集、多教师 on-policy 蒸馏、OSWorld/MobileWorld 结果，以及跨平台 APP 自动化测试的工程边界。

2026-07-07 GUI AgentComputer Use

GUI Agent 真的相信屏幕吗：像素、DOM 与状态信念之间的错位

解析 arXiv 2026 论文 Do GUI Agents Believe Their Eyes?：作者用 310 个真实 web、mobile、desktop 探针诊断多模态 GUI agent 的状态信念到底来自截图还是 DOM/accessibility 等结构化通道，并讨论它对 APP 自动化测试与移动端 QA 的工程启发。

2026-07-07 GUI AgentPageAgent

Page Agent：页面内 GUIAgent 的 loop 是怎么实现的

基于 alibaba/page-agent 当前 main commit，拆解 PageAgent 怎样用 DOM 文本观察、单步 AgentOutput 和 PageController 动作执行，跑出一个页面内的 GUIAgent loop。

2026-07-06 GUI AgentComputer Use

把任务状态从屏幕里拆出来：TSR 给长程移动端 GUI Agent 挂了一个外置状态机

解析 TSR（Task-State Representation，2026-07-01）：它不改 agent、不训模型，而是在固定的 GUI actor 外面挂一个训练无关的状态更新器，用动作前后两张截图对比，持续维护任务摘要、进度追踪和动作校验三块结构化状态。对做 APP 自动化测试的人，这篇最值钱的地方不是又涨了几个点，而是它把长程用例里最难的三件事——目标漂移、进度幻觉、界面延迟导致的死循环——拆成了三个可单独维护、可单独消融的字段。

2026-07-03 GUI AgentComputer Use

把动作校验做进像素里：VisCritic 用截图对比给 GUI Agent 当过程裁判

解析 VisCritic（ECCV 2026 投稿）：它不改 agent，而是拿一个 Siamese ViT 直接对比动作前后两张截图，判断这一步成没成、错在哪、进度到哪。对 APP 自动化测试来说，这正好切中一个老问题——每一步操作的 oracle 到底该怎么设，以及为什么纯文本断言看不懂界面的视觉变化。

2026-07-02 GUI AgentComputer Use

视觉记忆不是加得越多越好：一篇 GUI Agent 失败模式研究给自动化测试的启示

解析 Naive Visual Memory is Not Enough：这篇论文没有堆新 benchmark，而是把 GUI Agent 的失败拆成认知、视觉状态、隐藏操作、grounding 四类，并证明简单堆整屏视觉记忆会降低状态级错误、却推高动作级错误。对 APP 自动化测试来说，它把‘失败归因’和‘记忆该存什么像素’变成了可操作的问题。

2026-07-02 PerfDogMCP

PerfDog AI 工具体系拆解：CLI、MCP 与 Skills 是怎么接起来的

基于 PerfDog 当前官方 CLI、远程 MCP schema 和三套 Skills，拆解它如何把本地采集、云端报告分析和 Agent SOP 接成一条性能测试闭环。

2026-07-01 AI AgentAgentScope

AgentScope Java：从 ReActAgent 到生产级 Harness

基于 agentscope-ai/agentscope-java 最新 main commit，拆解 AgentScope Java 如何把 ReAct 循环、事件流、middleware、工具权限、workspace、sandbox、skill 和 subagent 组合成 Java 侧生产级 Agent 框架。

2026-07-01 AI AgentAgent-as-a-Judge

AJ-Bench：让 Judge Agent 进入环境，而不是只读轨迹

拆解 AJ-Bench 如何评测 Agent-as-a-Judge：从 Search、DS、GUI 三类数据构造，到代码里的 pipeline、MCP 工具、轨迹回放、桌面环境交互和 F1 聚合。

2026-07-01 GUI AgentComputer Use

Capable but Careless：会用电脑的 Agent，为什么管不住嘴

从 GUIAgent 与移动端 QA 视角解析 AgentCIBench：它把 computer-use agent 的隐私边界问题变成可执行、确定性打分的测评 harness，用 117 个场景测 15 个前沿 agent，平均泄露率 67.9%，只有一个模型落在既能干活又守边界的象限。文章拆解它的三类失败模式、评分设计和防御实验，并讨论这套确定性 oracle 对 APP 端安全测试的直接启发。

2026-07-01 AI AgentSandbox

CubeSandbox：把 Agent 代码执行放进可治理的 MicroVM

基于 TencentCloud/CubeSandbox 最新 master commit，说明它如何用 E2B 兼容 API、KVM MicroVM、CubeCoW、CubeVS/eBPF、CubeEgress 和 CubeProxy sidecar 组成面向 AI Agent 的沙箱运行平台。

2026-06-30 GUI AgentComputer Use

GUICrafter：GUI Agent 的数据飞轮，未必只能靠人工轨迹

解析 2026-06-29 arXiv 论文 GUICrafter：它用海量未标注截图中的交互信号构造 meta-task，再用少量高质量数据做 RL 校准，尝试把 GUI Agent 训练从昂贵人工轨迹推向弱监督预训练。文章从移动端 QA 与 APP 自动化测试视角讨论其贡献、证据和工程边界。

2026-06-29 AI AgentLangChain

Deep Agents：四个模块背后的实现机制

按官方文档的 Execution environment、Context management、Delegation、Steering 四个模块拆解 langchain-ai/deepagents 的源码实现：middleware、backend protocol、虚拟文件系统、上下文压缩、subagent、HITL 与 LangGraph runtime 如何拼起来。

2026-06-26 GUI AgentComputer Use

Argus：GUI Agent 什么时候应该相信自己的点击

从 GUIAgent 与移动端 QA 视角解析 Argus：它把 computer-use agent 的不确定性量化从通用 VLM 校准拉回到可执行 GUI grounding，系统比较 27 种 open-weight UQ 方法、8 种 API-only 方法与 conformal click disks，提醒工程系统不要只看 top-1 坐标，还要判断何时拒绝、复查或交给人。

2026-06-25 GUI AgentPhone Agent

腾讯混元 PhoneGUI 五篇论文：环境、训练、执行与部署边界怎样拼成手机 Agent 栈

详细拆解腾讯混元 PhoneGUI 方向的 PhonePrivacy、PhoneSafety、PhoneWorld、PhoneHarness、PhoneBuddy 五篇论文：为什么它们不是五个孤立 benchmark，而是在回答手机 Agent 从环境供给、模型训练、运行时执行到隐私安全边界的系统问题。

2026-06-25 GUI AgentComputer Use

VISUALSKILL：GUI Agent 的技能库为什么不能只剩文字

从 GUIAgent 与移动端 QA 视角解析 VISUALSKILL：它把应用级技能库从 text-only 文档推进到按需加载的图文混合知识，并用 matched text-only control 证明 UI 图像本身能帮助元素定位和中间状态验证。

2026-06-24 GUI AgentMobile Agent

MemGUI-Agent：长程 Mobile GUI Agent 的瓶颈，正在从点屏转向上下文治理

从 GUIAgent / mobile QA 视角解析 MemGUI-Agent：ConAct 把历史折叠、UI 记忆和动作生成放进同一个端到端策略，MemGUI-3K 用 2956 条长程轨迹监督模型学习上下文管理，并讨论它对 APP 自动化测试、移动端 QA 与长流程回归的工程启发。

2026-06-22 HeadroomAI Agent

Headroom：把 AI Agent 的上下文压缩做成本地代理层

拆解 chopratejas/headroom：它不是单个压缩算法，而是用 wrap、透明代理、provider-specific live zone、块级压缩器和 CCR，把工具输出压缩变成对 Agent 透明的一层本地基础设施。

2026-06-22 GUI AgentMobile Agent

MobileForge：Mobile GUI Agent 从人工标注走向真实 App 自适应

从 GUIAgent 专家视角解析 MobileForge：用 MobileGym 与 HiFPO 把真实移动 App 探索、自动任务生成、层级反馈和 GRPO 训练连成 annotation-free adaptation 闭环，并讨论它对 APP 自动化测试与移动端 QA 的价值和风险。

2026-06-18 GUI AgentMobile Agent

AndroidDaily：闭源真实 App 上，Mobile GUI Agent 终于开始被“过程可验证”地评测

从 GUIAgent / computer-use agent 专家视角解析 AndroidDaily：350 个真实闭源 Android App 任务、94 个高频应用与 GRADE 过程感知评测，把移动端 GUI Agent 评测从静态 grounding 和开源沙箱推向真实 App 自动化与可诊断验证。

2026-06-17 GUI AgentComputer Use Agent

MementoGUI：长程 GUI Agent 的瓶颈，正在从视觉定位转向多模态记忆控制

从 GUIAgent / computer-use agent 专家视角解析 MementoGUI：它把长程 GUI 控制从 raw history replay 和 text-only memory 推向可学习的多模态工作记忆与情景记忆控制，但其 offline benchmark、VLM judge 与低轨迹成功率也提示工程落地仍需谨慎。

2026-06-16 GUI AgentComputer Use Agent

SaaS-Bench：GUI Agent 从“会点网页”到“能完成真实 SaaS 工作流”还差多远？

从 GUIAgent / computer-use agent 专家视角解析 SaaS-Bench：23 个真实可部署 SaaS、106 个专业工作流、长程多应用任务和可验证 checkpoint 如何暴露当前 CUA 在规划、状态追踪、自验证与工程落地上的短板。

2026-06-15 CUAGUI Agent

CUA：GUIAgents 运行时与电脑使用闭环

基于 trycua/cua 源码，解析 CUA 的项目分层和 GUIAgents 运行时：ComputerAgent 如何选择模型 loop、统一工具协议、执行电脑动作、回灌截图，并兼容 OpenAI、Claude、UI-TARS、OmniParser 和组合 grounding 模型。

2026-06-15 GUI AgentComputer Use

近一年 GUIAgent 论文综述：从会点屏幕到可验证的移动端 QA Agent

系统梳理 2025-06-15 至 2026-06-15 公开可检索的 GUIAgent / computer-use agent 论文，从移动端 APP 自动化测试、benchmark、grounding、RL、自进化、verifier、混合工具与安全治理七条主线总结领域变化。

2026-06-15 GUI AgentComputer Use

LivingScreen：GUI Agent 不能再假装屏幕是静止的

解析 arXiv 2026 论文 Benchmarking Living-Screen-Native GUI Agents on Short-Video Platforms。文章从 GUIAgent 专家视角评估 LivingScreen 对动态屏幕、观察控制、短视频原生界面和 APP 自动化测试的启发。

2026-06-14 GUI AgentComputer Use

WindowsWorld：GUI Agent 终于被放进跨应用办公流里考试

解析 arXiv 2026 论文 WindowsWorld：一个面向 Windows 专业跨应用工作流的 process-centric GUI Agent benchmark。文章从 GUIAgent 专家视角评估它相对 OSWorld、AndroidWorld、VisualWebArena、MacArena 的位置、可信度、局限，以及对 APP 自动化测试和移动端 QA 的启发。

2026-06-13 GUI AgentComputer Use

MacArena：终于把 GUI Agent 拉到真实 macOS 竞技场里

解析 arXiv 2026 论文 MacArena：一个运行在 Apple Silicon 虚拟化环境上的 macOS computer-use agent 在线基准。文章从 GUIAgent 专家视角讨论它相对 OSWorld、macOSWorld、AndroidWorld、VisualWebArena 的位置、可信度、局限，以及对 APP 自动化测试和移动端 QA 的启发。