archive index
文章归档
Headroom:把 AI Agent 的上下文压缩做成本地代理层
拆解 chopratejas/headroom:它不是单个压缩算法,而是用 wrap、透明代理、provider-specific live zone、块级压缩器和 CCR,把工具输出压缩变成对 Agent 透明的一层本地基础设施。
MobileForge 论文解析:Mobile GUI Agent 从人工标注走向真实 App 自适应
从 GUIAgent 专家视角解析 MobileForge:用 MobileGym 与 HiFPO 把真实移动 App 探索、自动任务生成、层级反馈和 GRPO 训练连成 annotation-free adaptation 闭环,并讨论它对 APP 自动化测试与移动端 QA 的价值和风险。
AndroidDaily 论文解析:闭源真实 App 上,Mobile GUI Agent 终于开始被“过程可验证”地评测
从 GUIAgent / computer-use agent 专家视角解析 AndroidDaily:350 个真实闭源 Android App 任务、94 个高频应用与 GRADE 过程感知评测,把移动端 GUI Agent 评测从静态 grounding 和开源沙箱推向真实 App 自动化与可诊断验证。
MementoGUI 论文解析:长程 GUI Agent 的瓶颈,正在从视觉定位转向多模态记忆控制
从 GUIAgent / computer-use agent 专家视角解析 MementoGUI:它把长程 GUI 控制从 raw history replay 和 text-only memory 推向可学习的多模态工作记忆与情景记忆控制,但其 offline benchmark、VLM judge 与低轨迹成功率也提示工程落地仍需谨慎。
SaaS-Bench 论文解析:GUI Agent 从“会点网页”到“能完成真实 SaaS 工作流”还差多远?
从 GUIAgent / computer-use agent 专家视角解析 SaaS-Bench:23 个真实可部署 SaaS、106 个专业工作流、长程多应用任务和可验证 checkpoint 如何暴露当前 CUA 在规划、状态追踪、自验证与工程落地上的短板。
CUA 源码拆解:GUIAgents 运行时与电脑使用闭环
基于 trycua/cua 源码,解析 CUA 的项目分层和 GUIAgents 运行时:ComputerAgent 如何选择模型 loop、统一工具协议、执行电脑动作、回灌截图,并兼容 OpenAI、Claude、UI-TARS、OmniParser 和组合 grounding 模型。
近一年 GUIAgent 论文综述:从会点屏幕到可验证的移动端 QA Agent
系统梳理 2025-06-15 至 2026-06-15 公开可检索的 GUIAgent / computer-use agent 论文,从移动端 APP 自动化测试、benchmark、grounding、RL、自进化、verifier、混合工具与安全治理七条主线总结领域变化。
LivingScreen:GUI Agent 不能再假装屏幕是静止的
解析 arXiv 2026 论文 Benchmarking Living-Screen-Native GUI Agents on Short-Video Platforms。文章从 GUIAgent 专家视角评估 LivingScreen 对动态屏幕、观察控制、短视频原生界面和 APP 自动化测试的启发。
WindowsWorld:GUI Agent 终于被放进跨应用办公流里考试
解析 arXiv 2026 论文 WindowsWorld:一个面向 Windows 专业跨应用工作流的 process-centric GUI Agent benchmark。文章从 GUIAgent 专家视角评估它相对 OSWorld、AndroidWorld、VisualWebArena、MacArena 的位置、可信度、局限,以及对 APP 自动化测试和移动端 QA 的启发。
MacArena:终于把 GUI Agent 拉到真实 macOS 竞技场里
解析 arXiv 2026 论文 MacArena:一个运行在 Apple Silicon 虚拟化环境上的 macOS computer-use agent 在线基准。文章从 GUIAgent 专家视角讨论它相对 OSWorld、macOSWorld、AndroidWorld、VisualWebArena 的位置、可信度、局限,以及对 APP 自动化测试和移动端 QA 的启发。
HiViG:GUI Agent 的 critic 不该只打分,还要看坐标和记住历史
解析 arXiv 2026 论文 A History-Aware Visually Grounded Critic for Computer Use Agents:它如何用宏动作历史与视觉落点校验提升 web、mobile、desktop computer-use agent 的测试时可靠性。
Orchard:开源 GUI Agent 训练不缺 Harness,缺的是可扩展的环境层
解析 arXiv 2026 论文 Orchard:一个面向 SWE、GUI/browser navigation 和个人助理任务的开源 agentic modeling 框架,以及它对 GUI agent 训练基础设施的启发。
DeskCraft:桌面 GUI Agent 离真实专业工作流还有多远?
解析 arXiv 2026 论文 DeskCraft:一个覆盖 538 个专业桌面任务、长程工作流和人机协作协议的执行式 GUI Agent 基准。
Loop Engineering:把提示词变成可验证的自治回路
全网搜索 Loop Engineering 之后,我对这个概念的理解:它不是替代 prompt engineering,而是把触发、上下文、工具、验证、状态和停止条件工程化,让 AI Agent 可以在边界内持续推进任务。
QA Wolf:把端到端测试做成 AI 平台 + 托管服务
从官方文档和官网页面拆解 QA Wolf 的完整服务链路:环境准备、Mapping、Automation AI、调试、运行、失败调查、清理发布和 Full Service 到底分别做什么。
StainFlow:给 GUI Agent 的每一步进展一条可追踪证据链
解析 arXiv 2026 论文 StainFlow:如何用实体染色流和自适应证据窗口,为长程 GUI Agent 强化学习提供更可靠的过程奖励。
近两个月 GUI Agent 论文全景:从“会点击”走向可训练、可验证、可部署的 Computer Use 系统
梳理 2026-04-08 至 2026-06-08 期间可检索到的 90+ 篇 GUI Agent / Computer-Use Agent 相关论文,总结基准环境、GUI grounding、RL 训练、长程记忆、工具融合、安全可靠性等研究趋势。
Open Code Review:把 AI 代码审查拆成确定性流水线
拆解 alibaba/open-code-review:它不是简单把 diff 丢给模型,而是用文件筛选、规则匹配、并发子任务、专用工具、评论定位和会话记录,把 Agent 约束进一条可观测的审查流水线。
OpenOmniBot:把 Android 手机做成端侧 Agent 运行时
拆解 omnimind-ai/OpenOmniBot:它不是普通 AI 聊天 App,而是把 Android 无障碍、VLM、MCP、Alpine 工作区、Skill、记忆和 OmniFlow Function 接到同一个端侧 Agent 闭环里。
SE-GA:让 GUI Agent 从静态执行器进化成会积累经验的学习者
解析 ICML 2026 论文 SE-GA:如何用 TTME 分层记忆与 MASE 自进化训练,提升图形界面智能体在长程、多步、动态 GUI 任务中的泛化与稳定性。
Video2GUI:把互联网教程视频变成 GUI Agent 的预训练燃料
解析 ICML 2026 论文 Video2GUI:如何从 5 亿级视频元数据中自动筛选教程视频,构建 WildGUI 大规模交互轨迹数据集,并用它提升 GUI grounding 与 computer-use agent 泛化能力。
全栈工程师应该怎么做架构设计
从业务目标、质量属性、前端体验、后端领域、接口契约、数据一致性到可观测性,整理一套可落地的全栈架构设计方法。
GUI-CIDER:GUI Agent 需要的不是更多轨迹,而是可内化的界面世界知识
解析 arXiv 2026 论文 GUI-CIDER:如何用因果内化与密度感知样本重选,在 mid-training 阶段把 GUI 轨迹转化为可迁移的界面世界知识。
Flue:把 Claude Code 式 agent 变成可部署的 TypeScript 框架
拆解 withastro/flue:它不是一个聊天 SDK,而是围绕 harness、session、sandbox、skills、routing 和 build target 设计的 headless agent 框架。
UI-Voyager:让移动 GUI 智能体从失败轨迹里自我进化
解析 UI-Voyager 如何用 RFT 与 GRSD 把稀疏的任务成败反馈转化为可学习的步骤级监督,并在 AndroidWorld 上让 4B 模型达到 81.0% Pass@1。
VeriGUI:GUI Agent 不该盲目行动,而要先确认动作真的生效
解析 ACL 2026 论文 Don’t Act Blindly:为什么 GUI Agent 容易在失败动作上死循环,以及 VeriGUI 如何用 TVAE、Robust SFT 和 GRPO 建立动作结果验证与自纠错能力。
Hermes Agent 自动沉淀 Skill:从后台复盘到 Curator
结合源码、prompt 和示意图,拆解 Hermes Agent 如何在复杂任务后复盘、写入 Skill、标记来源,并由 Curator 做二次整理。
ASSERT:把需求文档变成 AI Agent 回归测试
从 ASSERT 的 spec-driven 评测思路、四段流水线、本地 artifact、Trace 证据链和 Viewer,看它如何把自然语言需求变成可复跑的 AI 系统评测。
基于 OpenClaw 项目的 AI Agent 技术分享
从 OpenClaw 的 Gateway、工具体系、Skills、MCP 与 Agent 执行流程,看个人 AI 助手系统的工程架构。
GUIAgent在测试领域的产品形态思考
GUIAgent在测试领域的产品形态思考
AUITestAgent-一句话让AI帮你做UI测试
前端UI测试Agent
4 - 浩瀚苍穹
第4期 - 浩瀚苍穹
3 - 周公除三害
第3期 - 周公除三害
2 - 杯中养鱼
第2期 - 杯中养鱼
1 - 鸭绿江断桥
第1期 - 鸭绿江断桥
Mobile-Agent解析
Mobile-Agent解析
AppAgent笔记
基于多模态大模型的APP操作Agent
YoloV7学习与使用
YoloV7学习与使用
LangChain Models+Prompts
LangChain学习
Frida Hook工具
Frida hook工具简单总结
QTypist论文笔记
QTypist论文笔记
Windows Terminal
WT
AGSS-VOS: Attention Guided Single-Shot Video Object Segmentation 论文解读
VOS
VisDrone2019记录
LeetCode
Pytorch Tensorboard
Pytorch
DANet-CCNet
LeetCode
Context Encoding for Semantic Segmentation
LeetCode
没有匹配的文章。