Anthropic 刚刚发布了真正的 Claude Bot……
作者:FancyPig | 发布时间: | 更新时间:
杂谈
Anthropic 刚刚推出了 Claude Computer Use,试图对抗 OpenClaw。但它究竟是一个颠覆性的突破,还是又一波被过度炒作的噱头?我们来实际测试一下。
视频讲解
Claude Computer Use:当模型开始直接操作你的计算机
过去几年,大模型主要停留在“理解与生成”层面:写代码、写文档、做分析,或者给出决策建议。但随着 Claude Computer Use 这一类能力的出现,系统边界发生了明显变化——模型开始从“提供答案”转向“执行任务”。
这不是简单的功能扩展,而是交互范式的变化。
从对话接口到执行接口
传统的人机交互,大致是这样的路径:
人提出问题 → 模型生成结果 → 人决定是否执行
而在新的模式下,路径被缩短为:
人给出目标 → 模型直接执行
这里的关键不在于“能做更多事”,而在于执行权发生了转移。
模型不再只是参与决策,而是进入实际操作流程,成为一个具备行动能力的执行单元。
操作系统成为新的“工具层”
以往的 Agent 系统,大多通过 API 调用外部服务来完成任务。但 Computer Use 的不同之处在于,它将“工具层”扩展到了操作系统本身:
应用程序成为可调用对象
文件系统成为可读写资源
浏览器成为信息入口
本地环境成为执行空间
这意味着,模型不再依赖预定义接口,而是可以在一个通用环境中完成任务。
从工程角度看,这是一次抽象层的下沉:
从“调用接口”变成“操作环境”
任务被重新定义
当模型具备操作能力之后,“任务”的定义也发生了变化。
过去,一个完整流程通常需要拆分为多个步骤,由人串联:
写代码
运行测试
提交代码
更新任务状态
现在,这些步骤可以被压缩成一个目标描述,由模型自行完成。
这类系统的核心能力不在于某一个动作,而在于:
理解目标
组织步骤
调用环境
持续推进
也就是说,重点从“单点能力”转向了“过程控制”。
行为与节奏的抽象
一个容易被忽略的变化是:模型不仅可以完成任务,还可以控制行为节奏。
例如:
何时执行某个动作
是否延迟输出结果
如何模拟人类工作习惯
这类能力本质上属于“行为建模”。
系统不仅在执行任务,也在决定“如何表现”。
这使得模型的角色从“工具”进一步接近“代理”。
两种不同的实现路径
目前这一类能力,大致分成两种实现方式。
一类强调开放性:
本地运行
模型可替换
控制粒度细
使用门槛较高
例如 OpenClaw 所代表的路径。
另一类强调可用性与约束:
默认集成
权限控制明确
使用成本低
与模型深度绑定
例如 Anthropic 的方案。
这两种方式没有绝对优劣,本质是不同取舍:
一种偏向系统能力
一种偏向产品化落地
执行能力带来的边界问题
当模型具备“持续执行”的能力之后,系统风险不再局限于内容层,而是进入行为层。
Palo Alto Networks 提到的几个要素,实际上构成了一个完整的闭环:
本地数据访问
外部信息接入
网络通信能力
状态记忆
当这些能力同时存在时,系统就具备了“自主运行”的基本条件。
问题也随之出现:
哪些操作是允许的
哪些行为需要中断
如何记录和审计执行过程
这些问题,本质上属于系统治理,而不是模型能力。
从“生成内容”到“执行行为”
可以用一个更简洁的方式来理解这类系统:
过去,大模型解决的是“说什么”
现在,开始解决“做什么”
这两者之间的差异,在工程实现上非常明显:
维度 | 生成模型 | 执行模型 |
|---|---|---|
输出 | 文本/代码 | 行为/操作 |
风险 | 信息错误 | 行为失控 |
控制点 | 提示词 | 权限与策略 |
也正因为如此,系统设计的重点开始转移:
从 prompt 设计
转向权限、流程与约束设计
一个尚未完全解决的问题
当前这类系统仍然存在一个明显短板:
对实时信息的依赖。
如果模型无法获取最新数据,那么:
决策可能失真
行为可能基于错误前提
因此,很多系统开始引入:
搜索能力
外部数据源
实时接口
本质是在补齐“环境感知”这一环。
结论
Claude Computer Use 代表的不是一个孤立功能,而是一个明确趋势:
模型正在从“理解世界”走向“作用于世界”。
这意味着系统设计的关注点必须同步变化:
从能力提升,转向边界控制
从生成质量,转向执行可靠性
从单次交互,转向持续行为
如果说过去的大模型更像一个顾问,那么现在,它正在变成一个可以直接参与工作的执行角色。