Opus4.7来了!

作者:FancyPig | 发布时间:

原文

我们的最新模型 Claude Opus 4.7 现已正式全面可用。

Claude Opus 4.6 相比,Opus 4.7 在高级软件工程能力上实现了显著提升,尤其是在最复杂、最具挑战性的任务中表现更为突出。用户反馈称,现在可以放心地将那些以往需要严密监督的高难度编码工作直接交由 Opus 4.7 处理。该模型在执行复杂且长周期任务时,展现出更强的严谨性与一致性,能够精准理解并遵循指令,并在给出结果前主动设计验证机制,对自身输出进行校验。

此外,该模型的视觉能力也有大幅提升:它能够以更高分辨率理解图像。在处理专业任务时,它在审美与创造力方面表现更佳,能够生成更高质量的界面设计、演示文稿和文档内容。同时,尽管其整体能力尚不及我们最强大的模型 Claude Mythos Preview,但在多项基准测试中,Opus 4.7 的表现仍全面优于 Opus 4.6。

上周我们发布了 Project Glasswing,重点阐述了 AI 模型在网络安全领域的风险与潜在收益。我们同时表示,将对 Claude Mythos Preview 的发布保持审慎,仅在能力相对较弱的模型上先行测试新的网络安全防护机制。


Claude Opus 4.7 正是首个用于该策略的模型:其网络安全能力尚未达到 Mythos Preview 的水平(实际上,在训练过程中,我们还专门尝试对这类能力进行差异化削弱)。Opus 4.7 在发布时已内置安全防护机制,能够自动识别并拦截涉及违规或高风险网络安全用途的请求。我们将通过这些防护机制在真实环境中的运行表现,逐步积累经验,以推动未来面向更高能力(Mythos 级别)模型的全面开放发布。


对于希望将 Opus 4.7 应用于合法网络安全场景(例如漏洞研究、渗透测试和红队演练)的安全专业人员,我们推出了全新的网络安全验证计划,欢迎加入。


目前,Opus 4.7 已在所有 Claude 产品体系及其 API 中上线,同时也已接入 Amazon BedrockGoogle Cloud Vertex AIMicrosoft Foundry。其定价与 Opus 4.6 保持一致:输入每百万 tokens 收费 5 美元,输出每百万 tokens 收费 25 美元。开发者可通过 Claude API 使用模型标识 claude-opus-4-7 进行调用。

以下是我们在 Opus 4.7 早期测试中的一些关键亮点与说明:

  • 指令遵循能力(Instruction following)
    Opus 4.7 在指令遵循方面有了显著提升。有趣的是,这也意味着:为旧版本模型设计的提示词(prompt),现在有时反而会产生“意料之外”的结果——过去的模型可能会对指令进行宽松理解,甚至忽略部分内容,而 Opus 4.7 则更倾向于逐字严格执行。因此,建议用户针对新模型重新调优提示词及相关调用逻辑。


  • 多模态能力提升(Improved multimodal support)
    Opus 4.7 在高分辨率图像理解方面有明显增强:它支持最长边达到 2,576 像素(约 375 万像素)的图像输入,是此前 Claude 模型的三倍以上。这使得许多依赖精细视觉信息的多模态应用成为可能,例如:读取复杂截图的计算机操作代理(computer-use agents)


  • 从复杂图表中提取数据

  • 需要像素级精度参考的任务

  • 真实业务能力(Real-world work)
    除了在 Finance Agent 评测中取得当前最先进水平(SOTA)的成绩外,我们的内部测试也表明,Opus 4.7 在金融分析场景中明显优于 Opus 4.6:
    分析更加严谨

  • 建模能力更强

  • 输出的演示材料更加专业

  • 多任务之间的衔接更加紧密
    同时,在第三方评测 GDPval-AA 中,Opus 4.7 也达到了当前最先进水平,该评测覆盖金融、法律等高价值知识工作领域。

  • 记忆能力(Memory)
    Opus 4.7 在基于文件系统的记忆能力上进一步增强。它能够在长时间、多轮交互过程中保留关键笔记,并在后续任务中加以利用,从而减少对初始上下文的依赖,使复杂工作流程更加高效。