
编者按:AI江湖再起波澜!就在顶级模型Ops 4.6亮相仅12天后,Anthropic闪电般推出中坚战力Claude Sonnet 4.6,百万令牌上下文火力全开,代码处理、长文档分析能力全面升级。最震撼的是,这款中端模型竟在多方面反超旗舰机型,性能差距缩小到毫厘之间,而价格纹丝不动。这记重拳不仅让开发者用70%的投票率表达青睐,更可能彻底颠覆以高端模型为核心的行业定价体系。当企业级自动化工具遇上性价比爆表的智能引擎,一场席卷办公场景的AI革命正在加速袭来!
人工智能聊天机器人Claude的运营公司Anthropic于当地时间17日发布了“Claude Sonnet 4.6”,在顶级模型Ops之后,进一步提升了其中端旗舰模型Sonnet的性能。这距离本月5日Ops 4.6的发布仅过去12天,是一次紧锣密鼓的后续更新。
Anthropic解释说,Sonnet 4.6在编码、计算机利用、长上下文推理、智能体规划以及知识型工作任务方面的能力都得到了提升。尤为引人注目的是,它支持100万令牌的上下文窗口,旨在满足企业在单次会话中处理大型代码库、合同和报告等庞杂文档的需求。
免费版和Pro版现在已默认使用Sonnet 4.6,其API定价保持不变,仍为每100万令牌3至15美元。公司表示,Sonnet 4.6已即刻在Claude、Cowork、Code、API以及各大云平台上线可用。
性能指标显示,其与Ops 4.6的差距正在缩小。Sonnet 4.6在SWE-bench Verified上获得79.6%的分数,在OSWorld-Verified上获得72.5%的分数,分别非常接近Ops 4.6的80.8%和72.7%。同时,它在GDPval-AA基准测试中以1633分(Ops 4.6为1606分)以及在Finance Agent基准测试中以63.3%的得分(Ops 4.6为60.05%)超越了Ops 4.6。Anthropic透露,在初步测试中,开发者对Sonnet 4.6的偏好度比Sonnet 4.5高出约70%,比Ops 4.5高出59%。
行业观察人士指出,Ops级别性能的下放扩散,可能会重塑当前以高端模型为中心的成本结构。随着Anthropic不断扩展其企业自动化工具,中端模型性能的提升预计将加速AI驱动的任务自动化进程。





