项目笔记 Read in English

Open Codex Computer Use

一个本地 macOS 执行层,让 agent 能在后台检查和操作真实 App。

日期2026 年 5 月 21 日
状态项目笔记

结论先行

GitHub: OpenCodexLabs/open-codex-computer-use.

Open Codex Computer Use 来自一个简单的产品判断:agent 需要操作真实 App,但它不应该抢走用户前台的鼠标和键盘。

这个项目把 computer use 变成一个本地执行层:agent 观察截图和 Accessibility 状态,通过受控工具表面行动,在每次动作后接收反馈,并通过独立的后台 lane 保持工作可见。

为什么需要它

旧桌面假设是一个用户、一个光标、一个前台任务。agent 工作打破了这个假设。coding agent 可能需要检查浏览器预览、操作 Notes、检查设置、打开 dashboard,或者和没有干净 API 的企业 App 交互。

如果它共享同一个前台光标,人就会被阻塞;如果它没有反馈就操作,agent 会漂移;如果 App 的 Accessibility 结构很弱,agent 就需要恢复路径。这就是为什么 computer use 应该是一个真实闭环,而不是盲宏。

图 1:共享前台光标会让 agent 工作变成打断,而不是协作。
Human and agent conflicting over the same foreground desktop cursor

核心想法

Computer use 不只是 “click x, type y”。对 agent 来说,它是感知、动作、反馈和恢复。执行层需要暴露足够的状态,让模型能推理 UI;也需要提供足够的动作后证据,让它知道动作是否成功。

Open Codex Computer Use 聚焦的就是这个缺失层。它不是新的 agent harness,而是一个本地 macOS 工具表面;当任务离开文件、进入真实 App 时,harness 可以调用它。

图 2:为截图、Accessibility 状态、动作和反馈准备一个独立的 agent 操作 lane。
AI-native computer use cover illustration
层级提供什么为什么重要
Observation截图加 Accessibility tree。agent 同时看到像素和语义 UI 结构。
Action点击、滚动、拖拽、键盘输入、文本输入和 accessibility actions。agent 可以操作原生 App,而不只是网页。
Feedback每个动作后的状态。闭环可以恢复,而不是假设动作已经成功。
VisibilityApp-aware virtual cursor 和适合 demo 的 trace。用户能理解 agent 在做什么。

工作流

这个 loop 故意很朴素:observe、plan、act、再 observe。朴素很重要。没有动作后状态,agent 只能猜;没有 Accessibility 状态,它会过度依赖像素;没有可见光标或 trace,用户无法信任发生了什么。

这也是本地执行重要的原因。真实 Mac 有真实 App、真实权限、真实 WebView 和真实用户状态。执行层应该贴近这个环境,同时又让 agent 的 lane 保持显式。

图 3:后台 computer use 是 observe-act-feedback loop,并和人的前台工作 lane 分开。
Open Codex Computer Use observe action feedback workflow

为什么重要

AI-native workflow 不断跨越代码和界面的边界。agent 可能先写实现,再在浏览器验证 UI,然后调整设置,再收集截图作为证据。纯文本 harness 已经不够。

Open Codex Computer Use 给这些 UI 步骤提供共享 primitive。与其让每个 agent 发明自己的脆弱桌面控制技巧,不如让 harness 调用一个用 App 状态、动作和反馈说话的本地 MCP server。

什么时候使用

适合使用需要小心
任务需要操作原生 macOS App。App 是自绘 UI,或者 Accessibility 结构很弱。
你想要本地 computer use,而不是云桌面。动作涉及安全、支付或账号变更后果。
你需要带可见 agent 动作的 demo。已有稳定 API,且比 UI 控制更安全。

一句话故事

agent 时代需要清楚区分人的前台工作和 agent 的后台工作。如果 agent 必须使用真实 App,它就应该通过显式的 observation-action-feedback loop 来做。

Open Codex Computer Use 给 agent 提供了一个本地、可见、理解 App 的操作 lane,用于真实 macOS 工作。

讨论

评论由 Disqus 提供。