别急着换模型——Claude Opus 4.7 发布后,我连夜做了一张对比表

张开发
2026/4/17 3:19:28 15 分钟阅读

分享文章

别急着换模型——Claude Opus 4.7 发布后,我连夜做了一张对比表
昨晚 10 点半Anthropic 发了一条推文3 小时 330 万浏览。Claude Opus 4.7他们说这是最能干的 Opus。我看完官方博客、跑完三个 benchmark 数据源、做完横纵向对比表之后想说一句可能不太受欢迎的话大部分人根本不需要 Opus 4.7。不是因为它不好——恰恰相反它好得很具体。问题出在你选模型的方式本身就是错的。01 先看数据再聊感受Opus 4.7 的核心提升SWE-bench Verified编程80.8% →87.6%一个版本涨了 6.8 个百分点。视觉精度 XBOW54.5% →98.5%接近翻倍。CursorBenchIDE 内编程58% →70%。生产环境任务解决量上一代的3 倍。工具调用错误减少 33%。这些数字很硬。编程场景下Opus 4.7 是目前毫无争议的第一。但我紧接着做了一件事——把它和 GPT-5.4、Gemini 3.1 Pro 放在同一张表里。结果让我清醒了。02 没有全能之王能力维度第一名分数第二名差距编程SWE-benchClaude Opus 4.787.6%Gemini 3.1 Pro 80.6%7pp工具调用MCP-AtlasClaude Opus 4.777.3%Gemini 73.9%3.4pp科学推理GPQAGPT-5.4 Pro94.4%Opus 4.7 94.2%仅差0.2%多语言MMMLUGemini 3.1 Pro92.6%Opus 4.7 91.5%1.1pp搜索BrowseCompGPT-5.4 Pro89.3%Opus 4.7 79.3%10pp数学FrontierMathGPT-5.4 Pro50.0%—无对手上下文长度Gemini 3.1 Pro1000万Llama 4 Scout 1000万并列编程 → Claude 碾压。数学 → OpenAI 统治。科学多模态 → Google 最全面。三家各有一块绝对领地没有任何一个模型在所有维度上同时第一。这就是 2026 年 4 月的真相AI 模型之间的竞争已经从谁更强变成了谁在你的场景里更强。03 选错模型等于烧钱来看一笔账。假设你是一个日常开发团队主要用 AI 写代码和 review。你选了 GPT-5.4 Pro因为综合最强。GPT-5.4 Pro 定价$30 输入 / $180 输出每百万 token。Claude Sonnet 4.6 定价$3 输入 / $15 输出。编程场景下Sonnet 4.6 的 SWE-bench 是 79.6%GPT-5.4 是 78.2%。你花了 10 倍的价格买到了更低 1.4% 的编程分数。反过来如果你是做科研推理的选了 Opus 4.7$5/$25而 Gemini 3.1 Pro$2/$12在 GPQA 上还高了 0.1%你又多花了 2 倍。这不是哪个模型好的问题是你的钱花在对的地方了吗的问题。04 一张决策表省你半小时别看 benchmark 论文了。记住这张表就够你的场景直接选月成本量级别选日常写代码Claude Sonnet 4.6 ($3/$15)$50-200GPT-5.4 Pro贵10倍编程更弱高难 Agent 自主任务Claude Opus 4.7 ($5/$25)$200-800—科研推理/博士级问答Gemini 3.1 Pro ($2/$12)$30-150Opus科学推理不是最强项数学竞赛/研究级数学GPT-5.4 Pro ($30/$180)$500其他所有数学OpenAI无对手预算极度敏感Kimi K2 Thinking ($0.6/$2.5)$10-50任何 $5 的模型处理超长文档Gemini 3.1 Pro (1000万上下文)$30-150Opus20万上下文差50倍本地部署/数据不出境GLM-5 或 Llama 4硬件成本所有闭源API极致省钱跑量Qwen 3.5 9B ($0.10/M)$5-20—核心逻辑先定场景再选模型。不是反过来。05 Opus 4.7 真正值得关注的三件事抛开 benchmark 数字Opus 4.7 有三个能力升级是质变级别的第一自我验证。推文原话“verifies its own outputs before reporting back”。这不是简单的 double-check。它会在输出前主动设计一套验证方案跑完验证才给你结果。遇到数据对不上的情况它会告诉你数据不足我无法确认而不是编一个看起来合理的答案。对于跑长时间 Agent 任务的人这是从你要盯着它到它自己能负责的跨越。第二视觉分辨率 3 倍提升。从约 125 万像素到 375 万像素。XBOW 渗透测试的视觉精度从 54.5% 跳到 98.5%。之前让 Claude 看截图、分析 UI、读文档里的表格经常瞎猜。现在基本能看清了。这对产品经理、设计师、测试工程师来说是实打实的能力解锁。第三Anthropic 手里还有一张没打的牌。官方博客明确说了Opus 4.7不如Claude Mythos Preview。Mythos 在 SWE-bench Pro 上跑出了 77.8%Opus 4.7 是 64.3%——差了 13.5 个百分点。这意味着 Anthropic 的技术上限远不止于此。Opus 4.7 是正式发布的稳定版Mythos 是还在测试的核弹。06 2026 年选模型的底层逻辑变了去年这个时候选模型的决策很简单——选最贵最强的就对了因为差距太大。今年不一样了。三个趋势彻底改变了游戏规则趋势一成本崩塌。去年花 $500/月才能用到的能力今年 $50 就够了。Qwen 3.5 9B 只要 $0.10/M tokens一个 9B 参数的小模型在 GPQA 上跑出了 81.7%——超过去年的 120B 大模型。趋势二开源逼平闭源。GLM-5 在 SWE-bench 上 77.8%Claude Opus 4.6 是 80.8%差距只有 3 个百分点。开源落后闭源两年这句话2026 年已经被数据证伪了。趋势三没有全能冠军。每家都有自己的绝对领地——Claude 的编程、OpenAI 的数学、Google 的科学推理和长上下文。选模型从选最强的变成了选最匹配的。所以我的建议很简单别追最新发布追最匹配场景。Opus 4.7 发布了很好。但如果你的核心场景是科研推理Gemini 3.1 Pro 仍然是更好的选择而且只要 1/2.5 的价格。连夜写完这篇的时候外面天快亮了。推特上还在刷 Opus 4.7 的 benchmark 截图评论区一片Claude 永远的神。我只想说一句2026 年了神有好几个。关键是你拜对了庙。*数据来源Anthropic 官方博客、Build Fast with AI、LM CouncilEpoch/Scale 独立测试、Vellum.ai。

更多文章