AI摘要

Windows版Codex现在支持Computer Use插件,可以让用户通过自然语言指令来操作Windows桌面应用,如打开应用、选择窗口、截图观察界面、点击、输入、按快捷键、拖拽、滚动等。这个插件适合操作传统桌面软件、Office自动化和检查、桌面应用测试、GUI-only流程代办以及设计/画布/复杂界面操作等场景,但不适用于浏览器网页自动化、自动化终端、处理高风险动作以及有外部影响的动作。

Computer Use 插件就是让我可以“看见并操作”你的 Windows 桌面应用:打开应用、选择窗口、截图观察界面、点击、输入、按快捷键、拖拽、滚动,并在操作后再截图验证结果。

image.png

在当前 Codex 里你不需要自己写调用代码,直接用自然语言告诉我就行,比如:

用 computer use 打开 Excel,把这个表格调整一下格式。
用 computer use 看一下微信窗口里最新一条消息是什么,不要回复。
用 computer use 操作这个本地 BOSS 客户端,查询用户 138xxxx 的套餐信息。
用 computer use 打开 PowerPoint,把第一页标题改成“月度经营分析”。
用 computer use 帮我复现一下这个桌面程序的按钮点击异常。

image.png

典型使用流程
我会先识别当前可操作的 Windows 应用和窗口,然后选择目标窗口,截图/读取可访问控件,执行点击、输入、快捷键等动作,最后再检查界面确认是否完成。

适合的应用场景

  1. 操作传统桌面软件
    比如老版 BOSS/CRM/营业厅客户端、ERP、财务软件、网管工具、配置工具等没有 API 或不好自动化的系统。
  2. Office 自动化和检查
    Word、Excel、PowerPoint 的排版、简单录入、按钮操作、菜单设置、最终视觉确认。大量结构化改文档时,我通常会优先用文件级工具,Computer Use 更适合界面验证和少量交互。
  3. 桌面应用测试
    启动程序、点击流程、复现 Bug、截图验证、检查弹窗、验证按钮/菜单/输入框行为。
  4. GUI-only 流程代办
    某些只能通过图形界面完成的查询、录入、导出、配置检查,都可以用它辅助完成。
  5. 设计/画布/复杂界面操作
    对设计工具、画布类软件、3D/可视化工具,可以用点击、拖拽、快捷键来操作和验证界面状态。

不太适合或不能做的事

  • 浏览器网页自动化通常优先用 Browser 或 Chrome 插件,不首选 Computer Use。
  • 不自动化终端、PowerShell、命令行窗口。
  • 不处理密码管理器、验证码、CAPTCHA、安全绕过、支付确认等高风险动作。
  • 删除数据、发送消息、上传文件、提交表单、改权限、购买/付款等有外部影响的动作,我会在真正执行前明确向你确认。

一句话:Computer Use 适合“没有好 API、必须像人一样点桌面软件”的场景。你只要说“用 computer use 操作某某应用完成某某事”,我就可以接手。

扫码加入猫哥的AI群
最后修改:2026 年 05 月 31 日
点赞的人是最酷的