archive index

文章归档

2026-06-22 HeadroomAI Agent

Headroom:把 AI Agent 的上下文压缩做成本地代理层

拆解 chopratejas/headroom:它不是单个压缩算法,而是用 wrap、透明代理、provider-specific live zone、块级压缩器和 CCR,把工具输出压缩变成对 Agent 透明的一层本地基础设施。

2026-06-22 GUI AgentMobile Agent

MobileForge 论文解析:Mobile GUI Agent 从人工标注走向真实 App 自适应

从 GUIAgent 专家视角解析 MobileForge:用 MobileGym 与 HiFPO 把真实移动 App 探索、自动任务生成、层级反馈和 GRPO 训练连成 annotation-free adaptation 闭环,并讨论它对 APP 自动化测试与移动端 QA 的价值和风险。

2026-06-18 GUI AgentMobile Agent

AndroidDaily 论文解析:闭源真实 App 上,Mobile GUI Agent 终于开始被“过程可验证”地评测

从 GUIAgent / computer-use agent 专家视角解析 AndroidDaily:350 个真实闭源 Android App 任务、94 个高频应用与 GRADE 过程感知评测,把移动端 GUI Agent 评测从静态 grounding 和开源沙箱推向真实 App 自动化与可诊断验证。

2026-06-17 GUI AgentComputer Use Agent

MementoGUI 论文解析:长程 GUI Agent 的瓶颈,正在从视觉定位转向多模态记忆控制

从 GUIAgent / computer-use agent 专家视角解析 MementoGUI:它把长程 GUI 控制从 raw history replay 和 text-only memory 推向可学习的多模态工作记忆与情景记忆控制,但其 offline benchmark、VLM judge 与低轨迹成功率也提示工程落地仍需谨慎。

2026-06-16 GUI AgentComputer Use Agent

SaaS-Bench 论文解析:GUI Agent 从“会点网页”到“能完成真实 SaaS 工作流”还差多远?

从 GUIAgent / computer-use agent 专家视角解析 SaaS-Bench:23 个真实可部署 SaaS、106 个专业工作流、长程多应用任务和可验证 checkpoint 如何暴露当前 CUA 在规划、状态追踪、自验证与工程落地上的短板。

2026-06-15 CUAGUI Agent

CUA 源码拆解:GUIAgents 运行时与电脑使用闭环

基于 trycua/cua 源码,解析 CUA 的项目分层和 GUIAgents 运行时:ComputerAgent 如何选择模型 loop、统一工具协议、执行电脑动作、回灌截图,并兼容 OpenAI、Claude、UI-TARS、OmniParser 和组合 grounding 模型。

2026-06-15 GUI AgentComputer Use

近一年 GUIAgent 论文综述:从会点屏幕到可验证的移动端 QA Agent

系统梳理 2025-06-15 至 2026-06-15 公开可检索的 GUIAgent / computer-use agent 论文,从移动端 APP 自动化测试、benchmark、grounding、RL、自进化、verifier、混合工具与安全治理七条主线总结领域变化。

2026-06-15 GUI AgentComputer Use

LivingScreen:GUI Agent 不能再假装屏幕是静止的

解析 arXiv 2026 论文 Benchmarking Living-Screen-Native GUI Agents on Short-Video Platforms。文章从 GUIAgent 专家视角评估 LivingScreen 对动态屏幕、观察控制、短视频原生界面和 APP 自动化测试的启发。

2026-06-14 GUI AgentComputer Use

WindowsWorld:GUI Agent 终于被放进跨应用办公流里考试

解析 arXiv 2026 论文 WindowsWorld:一个面向 Windows 专业跨应用工作流的 process-centric GUI Agent benchmark。文章从 GUIAgent 专家视角评估它相对 OSWorld、AndroidWorld、VisualWebArena、MacArena 的位置、可信度、局限,以及对 APP 自动化测试和移动端 QA 的启发。

2026-06-13 GUI AgentComputer Use

MacArena:终于把 GUI Agent 拉到真实 macOS 竞技场里

解析 arXiv 2026 论文 MacArena:一个运行在 Apple Silicon 虚拟化环境上的 macOS computer-use agent 在线基准。文章从 GUIAgent 专家视角讨论它相对 OSWorld、macOSWorld、AndroidWorld、VisualWebArena 的位置、可信度、局限,以及对 APP 自动化测试和移动端 QA 的启发。

2026-06-12 GUI AgentComputer Use

HiViG:GUI Agent 的 critic 不该只打分,还要看坐标和记住历史

解析 arXiv 2026 论文 A History-Aware Visually Grounded Critic for Computer Use Agents:它如何用宏动作历史与视觉落点校验提升 web、mobile、desktop computer-use agent 的测试时可靠性。

2026-06-11 GUI AgentComputer Use

Orchard:开源 GUI Agent 训练不缺 Harness,缺的是可扩展的环境层

解析 arXiv 2026 论文 Orchard:一个面向 SWE、GUI/browser navigation 和个人助理任务的开源 agentic modeling 框架,以及它对 GUI agent 训练基础设施的启发。

2026-06-10 GUI AgentComputer Use

DeskCraft:桌面 GUI Agent 离真实专业工作流还有多远?

解析 arXiv 2026 论文 DeskCraft:一个覆盖 538 个专业桌面任务、长程工作流和人机协作协议的执行式 GUI Agent 基准。

2026-06-10 Loop EngineeringAI Agent

Loop Engineering:把提示词变成可验证的自治回路

全网搜索 Loop Engineering 之后,我对这个概念的理解:它不是替代 prompt engineering,而是把触发、上下文、工具、验证、状态和停止条件工程化,让 AI Agent 可以在边界内持续推进任务。

2026-06-09 QA WolfE2E Testing

QA Wolf:把端到端测试做成 AI 平台 + 托管服务

从官方文档和官网页面拆解 QA Wolf 的完整服务链路:环境准备、Mapping、Automation AI、调试、运行、失败调查、清理发布和 Full Service 到底分别做什么。

2026-06-09 GUI AgentComputer Use

StainFlow:给 GUI Agent 的每一步进展一条可追踪证据链

解析 arXiv 2026 论文 StainFlow:如何用实体染色流和自适应证据窗口,为长程 GUI Agent 强化学习提供更可靠的过程奖励。

2026-06-08 GUI AgentComputer Use

近两个月 GUI Agent 论文全景:从“会点击”走向可训练、可验证、可部署的 Computer Use 系统

梳理 2026-04-08 至 2026-06-08 期间可检索到的 90+ 篇 GUI Agent / Computer-Use Agent 相关论文,总结基准环境、GUI grounding、RL 训练、长程记忆、工具融合、安全可靠性等研究趋势。

2026-06-08 Open Code ReviewAI Code Review

Open Code Review:把 AI 代码审查拆成确定性流水线

拆解 alibaba/open-code-review:它不是简单把 diff 丢给模型,而是用文件筛选、规则匹配、并发子任务、专用工具、评论定位和会话记录,把 Agent 约束进一条可观测的审查流水线。

2026-06-08 OpenOmniBotAI Agent

OpenOmniBot:把 Android 手机做成端侧 Agent 运行时

拆解 omnimind-ai/OpenOmniBot:它不是普通 AI 聊天 App,而是把 Android 无障碍、VLM、MCP、Alpine 工作区、Skill、记忆和 OmniFlow Function 接到同一个端侧 Agent 闭环里。

2026-06-08 GUI AgentComputer Use

SE-GA:让 GUI Agent 从静态执行器进化成会积累经验的学习者

解析 ICML 2026 论文 SE-GA:如何用 TTME 分层记忆与 MASE 自进化训练,提升图形界面智能体在长程、多步、动态 GUI 任务中的泛化与稳定性。

2026-06-07 GUI AgentComputer Use

Video2GUI:把互联网教程视频变成 GUI Agent 的预训练燃料

解析 ICML 2026 论文 Video2GUI:如何从 5 亿级视频元数据中自动筛选教程视频,构建 WildGUI 大规模交互轨迹数据集,并用它提升 GUI grounding 与 computer-use agent 泛化能力。

2026-06-06 架构设计全栈工程

全栈工程师应该怎么做架构设计

从业务目标、质量属性、前端体验、后端领域、接口契约、数据一致性到可观测性,整理一套可落地的全栈架构设计方法。

2026-06-06 GUI AgentComputer Use

GUI-CIDER:GUI Agent 需要的不是更多轨迹,而是可内化的界面世界知识

解析 arXiv 2026 论文 GUI-CIDER:如何用因果内化与密度感知样本重选,在 mid-training 阶段把 GUI 轨迹转化为可迁移的界面世界知识。

2026-06-06 FlueAI Agent

Flue:把 Claude Code 式 agent 变成可部署的 TypeScript 框架

拆解 withastro/flue:它不是一个聊天 SDK,而是围绕 harness、session、sandbox、skills、routing 和 build target 设计的 headless agent 框架。

2026-06-05 GUI AgentComputer-Use Agent

UI-Voyager:让移动 GUI 智能体从失败轨迹里自我进化

解析 UI-Voyager 如何用 RFT 与 GRSD 把稀疏的任务成败反馈转化为可学习的步骤级监督,并在 AndroidWorld 上让 4B 模型达到 81.0% Pass@1。

2026-06-05 GUI AgentComputer Use

VeriGUI:GUI Agent 不该盲目行动,而要先确认动作真的生效

解析 ACL 2026 论文 Don’t Act Blindly:为什么 GUI Agent 容易在失败动作上死循环,以及 VeriGUI 如何用 TVAE、Robust SFT 和 GRPO 建立动作结果验证与自纠错能力。

2026-06-05 Hermes AgentAI Agent

Hermes Agent 自动沉淀 Skill:从后台复盘到 Curator

结合源码、prompt 和示意图,拆解 Hermes Agent 如何在复杂任务后复盘、写入 Skill、标记来源,并由 Curator 做二次整理。

2026-06-04 ASSERTAI Evaluation

ASSERT:把需求文档变成 AI Agent 回归测试

从 ASSERT 的 spec-driven 评测思路、四段流水线、本地 artifact、Trace 证据链和 Viewer,看它如何把自然语言需求变成可复跑的 AI 系统评测。

2026-04-25 OpenClawAI Agent

基于 OpenClaw 项目的 AI Agent 技术分享

从 OpenClaw 的 Gateway、工具体系、Skills、MCP 与 Agent 执行流程,看个人 AI 助手系统的工程架构。

2025-01-11

GUIAgent在测试领域的产品形态思考

GUIAgent在测试领域的产品形态思考

2024-07-17

AUITestAgent-一句话让AI帮你做UI测试

前端UI测试Agent

2024-03-17

4 - 浩瀚苍穹

第4期 - 浩瀚苍穹

2024-03-10

3 - 周公除三害

第3期 - 周公除三害

2024-03-03

2 - 杯中养鱼

第2期 - 杯中养鱼

2024-02-25

1 - 鸭绿江断桥

第1期 - 鸭绿江断桥

2024-02-11

Mobile-Agent解析

Mobile-Agent解析

2024-01-23

AppAgent笔记

基于多模态大模型的APP操作Agent

2024-01-01

YoloV7学习与使用

YoloV7学习与使用

2023-04-08

LangChain Models+Prompts

LangChain学习

2023-02-27

Frida Hook工具

Frida hook工具简单总结

2023-02-14

QTypist论文笔记

QTypist论文笔记

2020-06-21

Windows Terminal

WT

2020-01-29 Video Object Segmentation

AGSS-VOS: Attention Guided Single-Shot Video Object Segmentation 论文解读

VOS

2019-07-22 Object Detection

VisDrone2019记录

LeetCode

2019-03-11 Tensorboard

Pytorch Tensorboard

Pytorch

2019-01-21 Semantic Segmentation

DANet-CCNet

LeetCode

2018-07-06 Semantic Segmentation

Context Encoding for Semantic Segmentation

LeetCode