Anthropic凌晨发了Opus 4.8。
如果只看那张benchmark对比图,你会觉得这是一次平淡的小版本升级。SWE-Bench Pro从64.3涨到69.2,OSWorld从82.8涨到83.4,几个百分点的事。我刷了一圈X和HN,最有共鸣的评论也就一句话:「看起来像是个挺小的更新?」

但我把官方博客、Dynamic Workflows专页、Fast Mode文档都翻了一遍, 我觉得这次发布真正在做的事完全不是benchmark上那几个百分点 。
以前你跟Claude打交道的单位是「一句话」或者「一个任务」——你问它一句话它回你一段,或者你给它一个PRD它做完一个功能。Opus 4.8这次想悄悄把单位换成「一下午」——你说一声,它自己拆出几百个并行小agent,跑两个小时,回来给你一个能合并的PR。
这才是真正值得讲的事。
先说还4.7债的部分
Opus 4.7是2026年4月16日发布的。4.8是5月28日发的。中间41天。
Anthropic之前没有过这个节奏。半年起步算是大模型行业的常规节奏。 41天就赶一版同价升级,不是产品迭代 。
4.7当时在Reddit上有一条顶帖「Opus 4.7 is not an upgrade but a serious regression」,2300多个赞。X上一条说「4.7没比4.6进步」的帖子拿了1.4万赞。这次4.8的HN讨论区里也能看到不少老用户说自己当时被4.7那个adaptive reasoning气得直接退回4.6。TechCrunch这次的报道里直接把4.8的快速发布归因为「chilly reception to Opus 4.7」。
所以你打开官方博客,能很清楚看到Anthropic在还4.7的债:
- 手动effort控制加回来了。4.7做了个"adaptive reasoning",自动判断要不要深度思考,用户骂翻。4.8直接默认effort拉到high,并且把档位还给用户
- 写代码不那么瞎自信了。以前Claude给你一段代码,可能里面有问题,但它不会告诉你哪里有问题;现在它会自己标出来。官方把这个叫做「降4倍幻觉」,社区有人吐槽包装成「honesty」提升是过度拟人化。两边都对,但开发者拿到的是实在的好处
- 价格不变。还是$5输入/$25输出
老用户其实不需要营销话术,给稳定的迭代和不涨价就够了。
41天发版的另一层是节奏狙击
聊到41天,我想多说一句。
Anthropic其实从Mythos之后就处在一个很微妙的位置。他们手上压着一个比公开模型水平高一截的天花板,理论上可以在Opus 4.6到Mythos之间随便切片发布。今天哪个版本能赢点市场就发哪个,命名怎么排都行。
4.8这个时机,刚好赶在GPT-5.6传言发布前。
所以4.8不只是「还4.7的债」,它同时是 一个有意切出来的中间态产品 。Anthropic自己留了大量调参空间,每次需要狙击竞争对手就放出来一版。这种打法你之前在芯片厂商那边见过,但在大模型这边是新的。以前发新模型动辄半年起步,因为「卡不够、数据不够、训练时间不够」。Mythos压顶之后这个节奏才出得来。
这里面其实藏着一个不太被讨论的细节: Opus 4.7和4.8的training data cutoff都是2026年1月,完全一样 。Opus 4.6还是May 2025。所以4.7到4.8这41天,base model大概率没有重做大规模预训练,迭代的是post-training(RLHF、safety训练、tool-use微调这些)。这才是Anthropic能做「频繁切片发版」的真正原因——base model复用,post-training快速迭代。对比国内DeepSeek V4发布时预训练语料截止时间要早不少,国内厂商的快速迭代更多卡在「卡和数据」上。
晚cutoff这件事还有一个更隐蔽的二阶价值。cutoff越晚,模型对 「AI能做什么、自己作为AI coding agent能做什么」的自我认识 越准。它见过最新版Claude Code的文档,见过最新的MCP和skill规范,见过别人怎么用agentic方式编程。所以你跟它聊best practice、说「按你自己的方式想」,它能接得住。新手友好的核心机制其实是这个,跟模型本身聪不聪明关系反而没那么大。
Fast Mode的"3倍便宜",是给重度用户的留人成本
Fast Mode这事我必须展开讲一下,因为大部分中文报道都讲错了。
官方原文是「fast mode for Opus 4.8—where the model can work at 2.5× the speed—is now three times cheaper than it was for previous models」。
「3倍便宜」是相对 自家上一代的Fast Mode ,不是相对标准模式。具体说就是:
| 项目 | 输入价 | 输出价 |
|---|---|---|
| Opus 4.6/4.7 Fast Mode(旧) | $30/百万token | $150/百万token |
| Opus 4.8 Fast Mode(新) | $10/百万token | $50/百万token |
| Opus 4.8 标准模式(参照) | $5/百万token | $25/百万token |

Fast Mode还是比标准模式贵2倍,但跟自己的上一代比,是1/3的价格。
但你看Fast Mode这价格表就知道,它不是给个人开发者准备的。
我自己用Claude Code是订阅档,Fast Mode用不起也用不上。Fast Mode真正的客户是API接入的大企业——企业里整个工程师团队几十个人每天上千次API调用Claude Code,账单是另一个量级。
最近微软甚至要求员工停止使用Claude Code,因为公司报销的API账单肉疼。这种背景下Anthropic主动砍Fast Mode 3倍,目的非常清楚:留住大企业客户,不让他们因为成本压力流失到GPT-5.5那边去。
对个人开发者来说,订阅档依然是最划算的方式 。Fast Mode这次降价红包,主要不是发给我们的。
Dynamic Workflows才是真新闻
跟着4.8一起发的Dynamic Workflows,是这次发布最值得讲的部分。
它具体在做什么——你跟Claude Code说一句「create a workflow」,或者打开 ultracode 这个新设置,剩下的事它自己安排。Anthropic自己的描述是「Claude can plan the work and then run tens to hundreds of parallel subagents in a single session」。
具体长这样:你说「把这100万行Java迁到Kotlin」,然后你出去喝杯咖啡。回来的时候它已经自己拆出了几百个小agent——一个负责改文件结构,一个负责改语法,一个负责跑测试,一个专门挑前三个的毛病。两小时后你看到的不是一段代码,是一个能合并的PR。
这事在我手上有对照。我自己平时用Claude Code跑女娲.skill(一个把人物蒸馏成思维skill的工具)的时候,已经在让它spawn好几个独立subagent做盲测。一个agent扮演评委审风格,一个扮演读者打分,互相质疑「这段是不是太AI腔了」「这个洞察立得住吗」。但我能搭起来的subagent数量上限大概十几个,因为再多我自己脑子里就管不过来了。Anthropic这次发的Dynamic Workflows是 让Claude自己写orchestration脚本,subagent数量到几百,自带adversarial verification机制 。简单说:原来我手动管十几个,现在Claude自己管几百个。
最有说服力的案例是Bun的rewrite。Bun把Zig写的运行时迁移到Rust,用Claude Code的Dynamic Workflows,11天产出大概75万行Rust代码。这事在HN上有正经的争议。产生了13000多个 unsafe block,主流声音是「这不算可以直接上production的代码」。但即使你把它当成「一个需要review的草稿PR」来看, 一个AI在11天内产出能编译能跑测试的75万行Rust——已经不在原来的量级里了 。
社区里有人吐槽token消耗暴涨,Anthropic自己的文档也老实承认这玩意儿会比普通Claude Code session贵得多。它不是给个人开发者每天用的,是给企业里那个「要把100万行legacy code迁到新语言」的工程总监用的。
但 Dynamic Workflows最有意思的不是企业场景 。
Karpathy上周刚加入Anthropic当MTS。他过去几年一直在讲一个东西:一个研究员真正的杠杆,是他能调动多少compute、多少agent。从他在OpenAI做RLHF、到自己写nanoGPT教程、到Eureka,一脉相承的判断都是: 未来超级个体的形态,是一个人指挥一群AI 。
Dynamic Workflows就是把这个杠杆做成了产品。
一个人,一台电脑,跑几百个并行subagent,11天产出75万行代码。这不是「企业级工具」,这是Karpathy这种人想要的形态——给我一个人,但让我能像一个200人团队那样工作。
我猜他加入Anthropic看到的可能就是这条路径。
Terminal-Bench那个故意没补的坑
我刚才说了Opus 4.8在agentic维度几乎全赢,但有一个例外。这一项叫Terminal-Bench 2.1。这一项GPT-5.5是78.2%,Opus 4.8是74.6%,差3.6个百分点。
这事Anthropic自己在官方博客脚注里默认了。他们用的是Terminus-2公开harness,承认GPT-5.5在自家Codex CLI harness下能跑到83.4%。
为什么41天的补丁包没去补这个坑?
一种解释是Anthropic 在选不同的山头 ,把宣传重点放在Super-Agent、Legal Agent Benchmark、Online-Mind2Web、SWE-Bench Pro这些自己擅长的方向。另一种解释更冷酷——模型架构在纯ops/CLI能力上确实有结构性短板,41天补丁补不出来。
我觉得真相在中间。 无论是故意还是没办法,Anthropic用资源分配清楚地表态了 :
- GPT-5.5的优势:纯终端、ops、CLI工作流,给ChatGPT在Codex里跑命令用
- Opus 4.8的优势:理解既有代码库、多文件改动、长链路agent execution,给Cursor、Claude Code这种IDE-style的agent用
「我擅长的方向赢得彻底」比「每个benchmark都打」更聪明。
(顺便提一句,Anthropic公布的SWE-Bench Pro 69.2%、OSWorld 83.4%这些数字,都是他们自家harness跑的。不能直接和公开榜对齐。)
我自己接下来怎么用
作为一个每天大概12小时挂在Claude Code上的人,对个人开发者来说Opus 4.8是稳赢的——同价格、写代码不那么瞎自信了、默认effort high、手动控制权也回来了。如果你用Cursor、Claude Code、Cline,今天就切到4.8。
Fast Mode不用纠结,订阅档够用。它本来就不是给我们准备的。
我自己最想试的是Dynamic Workflows。
下次跑女娲.skill的时候,我打算不再自己想清楚开几个subagent、谁审谁、互相怎么质疑。我打算直接说「create a workflow」,然后去吃个饭。
如果它想得比我好,那就是Anthropic在自家Agentic Coding Trends Report里说的那句话的真实样子:
"engineer's job shifts from writing code to coordinating agents that write code."
工程师的工作,正在从写代码,变成协调写代码的agent。