Open Codex Computer Use
一个本地 macOS 执行层,让 agent 能在后台检查和操作真实 App。
结论先行
GitHub: OpenCodexLabs/open-codex-computer-use.
Open Codex Computer Use 来自一个简单的产品判断:agent 需要操作真实 App,但它不应该抢走用户前台的鼠标和键盘。
这个项目把 computer use 变成一个本地执行层:agent 观察截图和 Accessibility 状态,通过受控工具表面行动,在每次动作后接收反馈,并通过独立的后台 lane 保持工作可见。
为什么需要它
旧桌面假设是一个用户、一个光标、一个前台任务。agent 工作打破了这个假设。coding agent 可能需要检查浏览器预览、操作 Notes、检查设置、打开 dashboard,或者和没有干净 API 的企业 App 交互。
如果它共享同一个前台光标,人就会被阻塞;如果它没有反馈就操作,agent 会漂移;如果 App 的 Accessibility 结构很弱,agent 就需要恢复路径。这就是为什么 computer use 应该是一个真实闭环,而不是盲宏。
核心想法
Computer use 不只是 “click x, type y”。对 agent 来说,它是感知、动作、反馈和恢复。执行层需要暴露足够的状态,让模型能推理 UI;也需要提供足够的动作后证据,让它知道动作是否成功。
Open Codex Computer Use 聚焦的就是这个缺失层。它不是新的 agent harness,而是一个本地 macOS 工具表面;当任务离开文件、进入真实 App 时,harness 可以调用它。
| 层级 | 提供什么 | 为什么重要 |
|---|---|---|
| Observation | 截图加 Accessibility tree。 | agent 同时看到像素和语义 UI 结构。 |
| Action | 点击、滚动、拖拽、键盘输入、文本输入和 accessibility actions。 | agent 可以操作原生 App,而不只是网页。 |
| Feedback | 每个动作后的状态。 | 闭环可以恢复,而不是假设动作已经成功。 |
| Visibility | App-aware virtual cursor 和适合 demo 的 trace。 | 用户能理解 agent 在做什么。 |
工作流
这个 loop 故意很朴素:observe、plan、act、再 observe。朴素很重要。没有动作后状态,agent 只能猜;没有 Accessibility 状态,它会过度依赖像素;没有可见光标或 trace,用户无法信任发生了什么。
这也是本地执行重要的原因。真实 Mac 有真实 App、真实权限、真实 WebView 和真实用户状态。执行层应该贴近这个环境,同时又让 agent 的 lane 保持显式。
为什么重要
AI-native workflow 不断跨越代码和界面的边界。agent 可能先写实现,再在浏览器验证 UI,然后调整设置,再收集截图作为证据。纯文本 harness 已经不够。
Open Codex Computer Use 给这些 UI 步骤提供共享 primitive。与其让每个 agent 发明自己的脆弱桌面控制技巧,不如让 harness 调用一个用 App 状态、动作和反馈说话的本地 MCP server。
什么时候使用
| 适合使用 | 需要小心 |
|---|---|
| 任务需要操作原生 macOS App。 | App 是自绘 UI,或者 Accessibility 结构很弱。 |
| 你想要本地 computer use,而不是云桌面。 | 动作涉及安全、支付或账号变更后果。 |
| 你需要带可见 agent 动作的 demo。 | 已有稳定 API,且比 UI 控制更安全。 |
一句话故事
agent 时代需要清楚区分人的前台工作和 agent 的后台工作。如果 agent 必须使用真实 App,它就应该通过显式的 observation-action-feedback loop 来做。
Open Codex Computer Use 给 agent 提供了一个本地、可见、理解 App 的操作 lane,用于真实 macOS 工作。