谷歌Gemini 3.1 Pro暴力碾压Claude和GPT

作者：修BUG | 发布时间：2026-02-20 10:36:47

2026 年 2 月 20 日凌晨，谷歌 DeepMind 正式官宣旗下全新大模型 Gemini 3.1 Pro 预览版发布，这一消息距离上周 Gemini 3 Deep Think 的更新不过数日，却直接刷新了 AI 领域的性能天花板。此前谷歌 CEO 桑达尔・皮查伊在印度 AI 峰会上遭遇小插曲，而此次新品的精准发布，无疑为谷歌在 AI 赛道的竞争添上了重磅筹码。这款模型被谷歌定义为解决复杂问题的基础底座，专为「一个简单答案远远不够」的任务而生，其核心推理能力实现史诗级飞跃，还凭借能打又省钱的优势，让硅谷 AI 战局迎来全新变局，就连 OpenAI 联创 Andrej Karpathy 都直言，应用商店的时代即将结束。

Gemini 3.1 Pro 的性能表现堪称「屠榜封神」，在衡量模型全新逻辑模式解决能力的 ARC-AGI-2 抽象推理测试中，该模型拿下 77.1% 的 ARC Prize 验证成绩，是上一代 Gemini 3 Pro（31.1%）的两倍多，同时直接压过 Anthropic 的 Opus 4.6（68.8%）和 OpenAI 的 GPT-5.2（52.9%）；在 ARC-AGI-1 测试中，它更是取得了 98% 的接近满分成绩。在其他核心基准测试中，Gemini 3.1 Pro 同样表现亮眼，科学知识测试 GPQA Diamond 斩获 94.3%，智能体类基准 MCP Atlas 和 BrowseComp 分别拿下 69.2% 和 85.9%；多语言问答基准 MMMLU 达到 92.6%，长上下文性能测试 MRCR v2（8-needle）的 128k 平均语境下得分 84.9%，还独家支持 1M Token 的极限测试并取得 26.3% 的成绩，而 GPT-5.2 和 Opus 4.6 对此均未提供支持。

编程能力方面，Gemini 3.1 Pro 实现了断层领先，竞争性编程基准 LiveCodeBench Pro 的 Elo 评分达到 2887，远超 Gemini 3 Pro 的 2439 和 GPT-5.2 的 2393；SWE-Bench Verified 智能体编码测试中，其 80.6% 的成绩与 Opus 4.6 的 80.8% 基本持平；Terminal-Bench 2.0 智能体终端编码测试拿下 68.5%，压制了专攻代码的 GPT-5.3-Codex（64.7%）。在长周期专业任务基准 APEX-Agents 中，该模型以 33.5% 的成绩傲视群雄，远超 Opus 4.6 的 29.8% 和 GPT-5.2 的 23.0%。第三方知名分析机构 Artificial Analysis 的智能指数评测中，Gemini 3.1 Pro 强势登顶，总分比 Opus 4.6 高 4 分，且完成测试的成本不到 Opus 4.6 的一半；同时，相较于 Gemini 3 Pro，3.1 Pro 的幻觉率还实现了大幅下降，进一步提升了模型的实用性。

当然，Gemini 3.1 Pro 并非在所有测试中都实现碾压，仍有部分环节稍显不足：多模态理解与推理基准 MMMU Pro 上，上代 Gemini 3 Pro 以 81.0% 的成绩略胜 3.1 Pro 的 80.5%；在启用工具支持的 Humanity's Last Exam 学术推理测试中，Opus 4.6 以 53.1% 的成绩拿下第一，这也让外界对谷歌模型工具使用效率的批评未能完全平息，该短板仍是谷歌后续需要打磨的方向。

第三方知名分析机构 Artificial Analysis 则给出了相当实在的评价。3.1 Pro 在他们的智能指数里排名第一，比 Opus 4.6 高 4 分；整个测试跑下来总计使用约 5700 万 tokens，完成测试的成本不到 Opus 4.6 的一半。能打又省钱，这个组合还是很香的。

除了硬核的跑分数据，Gemini 3.1 Pro 在实际落地应用中，展现出了从「回答问题」到「完成一整套专业或创意工作流」的能力跃升，谷歌官方及网友的实测 demo 更是让人眼前一亮。谷歌 DeepMind 首席科学家 Jeff Dean 转发了 3.1 Pro 模拟城市规划的应用，该模型能从零生成可交互的城市规划界面 demo；

谷歌官方博客还展示了其在代码动画、复杂系统整合方面的能力，只需文字提示，它就能生成纯代码的动态 SVG，这类动画支持任意缩放且不失真，文件体积远小于传统视频，还能直接接入公开遥测数据流，搭建出实时追踪国际空间站轨道的航天仪表盘。

这款模型的发布，也迎来了重磅人士的站台与认可。从 Anthropic 转投谷歌 DeepMind 的清华物理系特奖得主姚顺宇，不仅参与了 Gemini 3.1 Pro 的研发，还发文为其宣传：「Gemini 不仅是一个优秀的模型，而且更好的模型正以不可阻挡的方式到来。」谷歌相关负责人也表示，从 2025 年 11 月至今，用户的真实反馈加速了 Gemini 系列模型的每一次研发迭代，从 3.0 到 3.1 的快速进步，印证了谷歌在 AI 领域的迭代速度。

目前，Gemini 3.1 Pro 预览版已开放多渠道使用，不同用户群体均可体验：开发者可通过 Google AI Studio、Gemini API、Gemini CLI、智能体开发平台 Google Antigravity 以及 Android Studio 上手；企业用户可借助 Vertex AI 和 Gemini Enterprise 使用；普通用户能在 Gemini 应用和 NotebookLM 中体验，其中 NotebookLM 仅限 Pro 和 Ultra 订阅用户使用。价格方面，Gemini 3.1 Pro 的 API 采用分级付费模式，整体与上代 Gemini 3 Pro 保持一致，且相较于 Anthropic Opus 系列更具性价比：20 万 tokens 以内，输入单价为 2 美元 / 每百万 tokens，输出为 12 美元 / 每百万 tokens；超过 20 万 tokens 后，输入涨至 4 美元 / 每百万 tokens，输出为 18 美元 / 每百万 tokens；搜索功能每月前 5000 次免费，之后每 1000 次查询收费 14 美元。

Gemini 3.1 Pro 的发布，也让行业对 AI 的未来发展有了新的思考，OpenAI 联创 Andrej Karpathy 的观点颇具代表性。他为了在 8 周内将静息心率从 50 降到 45，花 1 小时用 vibe coding 做了一个专属的心肺训练仪表盘，过程中 Claude 需要逆向工程 Woodway 跑步机的云 API，还出现了公制与英制单位混用、日历日期匹配出错等问题，虽比两年前的 10 小时大幅提升，但他认为这个过程本该只需要 1 分钟。

Karpathy 直言，应用商店的时代正在变得过时，300 行代码就能实现的专属工具，由 LLM 几秒即可生成，完全没必要做成正经 App 让用户搜索下载；他还指出当下行业的痛点，99% 的产品 / 服务仍未配备 AI 原生的 CLI，还在维护给人类看的.html/.css 前端界面，而非提供便于智能体调用的 API，导致 LLM 需要逆向工程才能获取数据，效率大打折扣。在他看来，未来的 AI 时代，是由 AI 原生的传感器和执行器服务构成，通过 LLM 胶水编排，生成高度定制、短暂的专属应用，这一趋势已近在眼前。

Gemini 3.1 Pro 的深夜突袭，直接重塑了硅谷的 AI 战局，如今重量级玩家仅剩谷歌 DeepMind 和 Anthropic 正面抗衡，此前风头无两的 OpenAI，正逐渐失去主战场上的主动权。值得注意的是，目前 Gemini 3.1 Pro 仅为预览版，谷歌大概率还会继续打磨智能体工作流再推出正式版，此番发布更像是谷歌未使出全力的一次展示。而谷歌以近乎「肌肉秀」的迭代速度告诉行业，在通往 AGI 的深水区，只有实现硬件算力与算法深度耦合的玩家，才能牢牢握住下半场的入场券，而 AI 行业的进化，从来没有终点，只会有更强的下一幕。

注：帖子内容部分图片和文章参考自APPSO

标签：AI人工智能