标题和作者

本文标题为《OpenClaw逼出Claude最强反击!GUI操控电脑和真人无差别,网友:这得花多少token?》,作者为梦晨。文章主要讲述了Anthropic公司发布的Claude Code最新升级,新增了Computer Use能力,使其能够像真人一样通过实时截图看到屏幕内容并模拟鼠标键盘操作,精准反击了此前开源的OpenClaw项目。作者背景未在文中明确提及,但作为量子位的记者,该报道侧重于AI Agent领域的最新技术动态和市场竞争。文章背景建立在开源GUI自动化工具OpenClaw的快速发展之上,Anthropic为保持领先地位,推出了这一功能强大的GUI操控技术。

摘要

本文介绍了Anthropic公司发布的Claude Code最新升级,新增了Computer Use功能。此前,开源项目OpenClaw已经实现了基于GUI的电脑操控,Anthropic为了保持竞争力,推出了这一功能进行反击。本文具体阐述了Claude如何通过实时截图“看到”屏幕并模拟鼠标键盘操作,不再需要API接口或CLI化改造,从而能够操控传统软件。新功能还包括远程控制、定时任务以及分层的安全设计(如Docker隔离和敏感操作确认)。目前该功能已向Claude Pro和Max用户开放,支持macOS系统。尽管功能强大,但长时间运行的高昂token消耗也成为了一个问题。
Computer Use(计算机使用能力)是指AI模型通过实时截图感知屏幕内容,并利用模拟鼠标和键盘输入来操作计算机界面,从而像人类一样与软件交互的技术。Token(令牌)是大语言模型处理数据的基本单位,通常与计算成本相关,在此文中指AI执行长时间任务所需的计费单位。

主要主题和概念

Computer Use(GUI操控能力)

  • What:Claude Code新增了一种基于GUI的操作模式,使其能够像人类用户一样通过实时截图感知屏幕内容,并模拟鼠标点击和键盘输入来控制软件界面。
  • Why:为了应对开源项目OpenClaw的快速迭代,Anthropic公司全力开发此功能,旨在提供一种比传统API或命令行更直观、更强大的电脑操控方式。
  • How:通过实时获取屏幕截图进行分析,AI模型决定执行何种鼠标移动或键盘敲击,从而执行用户下达的指令,无需对目标软件进行特殊的API或CLI改造。

安全与集成机制

  • What:一套用于确保AI在操控电脑时的安全性的系统,包括权限管理和操作确认流程。
  • Why:为了防止AI在执行任务时误删文件、提交敏感表单或访问不受信任的数据,同时兼顾易用性,避免用户过度配置权限。
  • How:系统优先调用已授权的集成工具(如Slack、日历等),仅在必要时申请桌面权限,推荐使用Docker隔离环境,并在执行删除或提交等敏感操作前弹出确认请求。

远程与自动化任务

  • What:允许用户通过移动设备远程控制电脑执行任务,以及设置定时自动运行任务的能力。
  • Why:为了提升工作效率,让用户能够随时随地(通过手机)给电脑派活,或者设置无需人工干预的自动化流程。
  • How:通过配对手机端和桌面端账号,用户可以从手机端向Claude发送指令,或者设置定时任务,让Claude在指定时间自动运行工作流程。

Agent(智能体)是指能够自主感知环境、规划行动并执行任务以实现特定目标的AI程序。CLI(命令行界面)是一种通过文本命令与计算机操作系统进行交互的用户界面,相比于图形界面,它需要用户输入特定的指令代码。

重要引文

  • 论点:Claude Code的Computer Use能力已经成熟,足以击败开源项目OpenClaw,实现与人类无差别的电脑操控。
  • 论据:文中提到“Anthropic刚刚杀死了OpenClaw”,并指出Claude Code通过“基于GUI的操作……像真人一样通过实时截图‘看到’屏幕上的所有内容,然后模拟鼠标键盘操作”实现了这一目标。
  • 论证:作者指出,尽管OpenClaw更新很快,但Claude Code的迭代速度是OpenClaw“逼出来的”,这意味着Anthropic公司全力开发的更新速度超越了开源社区。

GUI(图形用户界面)是基于图形符号和鼠标操作的界面,相比于命令行,更直观易用,是Computer Use功能所操作的目标环境。

总结

本文的核心亮点在于Anthropic对开源项目OpenClaw的强势反击,通过Computer Use功能让Claude实现了与人类操作电脑无差别的体验。这一突破不仅让AI能够操控包括老旧系统在内的所有软件,还引入了远程控制和定时任务等实用功能,同时通过Docker隔离和确认机制保障了安全性。然而,这种强大的能力也带来了新的挑战,即长时间运行任务所需的高昂token成本,引发了网友对于“这得花多少token”的讨论。未来,随着Windows和Linux支持的到来,这一技术可能会在更广泛的场景中普及,但成本问题仍需解决。