Claude Opus 4.7全新亮相：虽非极致，却成AI界失眠之夜的导火索

作者：修BUG | 发布时间：2026-04-17 11:42:07

今年，Anthropic的步伐异常迅猛。

其热度持续攀升，口碑也日益提升，稳居AI领域“顶流”之位。如今，几乎每天醒来，都能目睹他们准时推送的新产品或新功能。久而久之，人们对他们的期待已从兴奋转变为“是你，果然又是你”的默契。

就在此刻，备受瞩目的Claude Opus 4.7也正式揭开面纱，依旧延续着熟悉的配方，熟悉的出色表现。

有趣的是，Anthropic在公告中坦率地表示：“这并非我们最强大的模型。”那个传说中的强大到不敢发布的Claude Mythos Preview依然藏匿。

然而，即便这个并非最强的Opus 4.7，依旧引发了极大的关注。因为它解决了一个比聪明更关键的痛点：可靠性。不是那种盲目遵从的可靠性，而是当你提出一个愚蠢的方案时，它敢于反驳你，并自己填补空缺的可靠性。

当可靠性超越聪明成为稀缺品质

基准测试结果显示，在业界公认的SWE-bench Pro上，Opus 4.7从前代的53.4%直接跃升至64.3%，单代升级涨幅近11个百分点，将GPT-5.4（57.7%）和Gemini 3.1 Pro（54.2%）甩在身后。

视觉推理的CharXiv基准从69.1%跃升至82.1%，对应的是它新获得的2576像素长边识别能力——清晰度是前代的3倍以上。

这不仅意味着“看”得更清楚，更高的分辨率还直接带动了输出质量的全面提升：生成界面、制作幻灯片、排版文档，细节精度也全面升级。

工具调用规模化评测MCP-Atlas上，Opus 4.7跑出77.3%，超过GPT-5.4的68.1%和Gemini的73.9%。法律AI平台Harvey测试中，Opus 4.7在BigLaw基准上拿下90.9%，正确区分了历来是前沿模型难题的转让条款与控制权变更条款。

然而，Opus 4.7并非全然遥遥领先，在Agentic search评测BrowseComp上，Opus 4.7从前代的83.7%下降至79.3%，被GPT-5.4（89.3%）和Gemini（85.9%）超越。

这种退步并非偶然。一个遇到缺失信息会直接报错、不愿胡编乱造的Agent，在以“是否给出答案”为评判标准的基准上，天然会处于劣势。

向左滑动查看更多“成绩单”

而数据之外，更值得关注的问题是：这种“可靠性”，在真实工作中到底意味着什么？过去一年，业界对代码大模型的期待，普遍还停留在编写函数、查找Bug的层面，但Claude Opus 4.7在早期测试中，展现出了一种截然不同的气质。

知名云端开发平台Replit这样评价：“它在技术讨论中会反驳我，帮我做出更好的决策。它真的感觉像一个更好的同事。”

它不再盲目遵从，也不再为了完成任务而胡编乱造。在数据科学平台Hex的测试中，Opus 4.7遇到缺失数据时会直接报错，而不是像前代那样填充一个看似合理但完全错误的备选值。

这种拒绝顺从的特质，恰恰是高级软件工程中最稀缺的东西。

当然，凡事都有两面。为旧模型编写的prompt，到了Opus 4.7手中可能会产生意想不到的结果。那些过去被模型“意会”的模糊指令，Opus 4.7会一字一句地字面执行。这也意味着越懂得清晰表达需求的人，越能从Opus 4.7这里获得好结果。

光会“顶嘴”还不够，遇到挫折就罢工的AI同样不是好同事。Opus 4.7的另一个显著亮点，是任务韧性。

以往大模型在多步任务中遇到工具调用失败，往往直接停机报错。Notion团队测试发现，Opus 4.7的工具错误率降至原来的三分之一，更关键的是，它能在工具链崩溃时自己绕过障碍，继续完成任务。

当AI停止谄媚，真正的生产力才开始爆发。

Anthropic公布的一个极端案例中，Opus 4.7在没有任何人类干预的情况下，从零构建了一个完整的Rust文本转语音引擎——编写神经网络模型、SIMD内核和浏览器演示，还自己将输出喂给语音识别器进行验证，甚至完成了测试。

雇佣AI“资深专家”的代价

为了验证它在细节上的处理能力，我设定了三个交互场景，评判标准只有一个：细节是否敷衍，一目了然。

第一个场景，是让它制作一个俯视视角的黑胶唱片机界面，其难点在于“金属光泽”与“呼吸光晕”的呈现。Opus 4.7并没有用廉价的色彩渐变敷衍了事，而是通过复杂的CSS样式叠加，逼真地还原了金属质感。

第二个场景是只用CSS，不用JavaScript制作一个老式电风扇。面对这个限制严格的题目，一些模型会偷偷违规使用JS，但Opus 4.7遵守了规则。

它用纯CSS制作出了风扇的立体结构，低中高三档过渡流畅，底座透视和阴影的处理也真有一点实物感，它在规则允许的范围内找到了很好的解决办法。

第三个场景是制作一个复古磁带随身听，带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。

当然，变聪明是有代价的。Opus 4.7现已在全球范围内的Claude产品、API、Amazon Bedrock、Google Cloud的Vertex AI以及Microsoft Foundry平台上推出。

基础定价维持在每百万token输入5美元、输出25美元不变。但Opus 4.7引入了全新分词器，同样的文本会拆分出比原来多1.0到1.35倍的Token。

叠加它在高强度任务中本身就倾向于“多想一会儿”，实际消耗几乎必然上升。

此外，Anthropic在原有的难度选项之上，加入了全新的xhigh（超高）级别。在这个级别下，面对复杂难题，Claude Opus 4.7会消耗更多的Token，花更多的时间去“思考”。Claude Code已将所有套餐的默认effort level直接拉至xhigh。

Anthropic用实际行动告诉所有人，对于真正的编码任务，省着用不如想清楚。为了匹配这种工作流，Claude Code顺势推出了两个杀手级功能：

/ultrareview（深度审查）：开启一个专门的审查会话，像一个极其挑剔的资深Reviewer一样，通读所有代码更改，精准标记出深层的架构设计缺陷和Bug。Pro和Max用户可免费试用三次。

Auto Mode（自动模式）扩展至Max用户：一种介于逐项授权和跳过所有权限之间的权限模式。Claude会在你授权的范围内自主做决策，既能完成漫长无聊的任务，又比完全放权更安全。

为了防止这个“太能思考”的AI把账户余额刷爆，API端还推出了“任务预算”（Task Budgets）功能公测版，让开发者可以显式规划Claude在长任务中的Token支出优先级。

当然，Opus 4.7并非Anthropic手中最强的牌。那个更强的Claude Mythos Preview，本月刚以“Project Glasswing”的名义，小范围开放给了一批企业用于网络安全研究。

Mythos没有公开发布，原因则是因为它的网络攻防能力太强，Anthropic觉得还没想清楚怎么安全地推给所有人。

Opus 4.7本身也做了主动取舍，训练阶段就压低了网络攻防能力，内置自动拦截机制，碰到高风险请求直接挡掉。有合规需求的安全研究人员，可以通过官方渠道单独申请。

不急着把最强的牌打出去，和不停地往桌上加新牌，背后是同一套逻辑。实际上，Anthropic真正的护城河，是交付节奏本身。

在今年2月1日至3月24日的短短52天里，Anthropic一共更新了74款产品，平均不到两天一个。Cowork、插件……这些动作扎扎实实地击中了职场办公的痛点，这种频率，足以让奥特曼睡不着了。

如今的Claude生态，早已超越了单纯的聊天机器人。对于那些渴望将AI深度嵌入实际工作流的团队而言，这种稳定、高频且可预期的更新节奏，才是最让人感到踏实的定心丸。

标签：AI模型发布, Anthropic技术, Claude Opus 4.7