
谷歌和OpenAI轮番轰炸的一周后,Anthropic也放出了自己的大招。
周四,Anthropic正式推出了新一代模型Claude Opus 4和Claude Sonnet 4。这次升级主打智能体能力、推理和编程。乐天集团抢先体验后透露,Claude Opus 4曾“独立运行七小时且性能稳定”。
虽然Sonnet系列通常更快更高效,但Claude Opus才是Anthropic的旗舰家族,尤其擅长处理复杂冗长的任务。Sonnet 4接替了Sonnet 3.7,而Claude Opus 4则是对Opus 3的全面进化。
Anthropic宣称,在SWE-bench和Terminal-bench等关键智能体编程基准测试中,Claude Opus 4和Sonnet 4的表现碾压了OpenAI的o3和Gemini 2.5 Pro等对手。
但要注意:这些自曝的基准测试未必靠谱。毕竟测试场景和真实应用常有差距,而且AI实验室普遍不愿公开透明——尽管这已是学界和监管机构的共同呼声。
欧盟委员会联合研究中心明确指出:“AI基准测试必须像算法系统和AI模型一样,满足透明度、公平性和可解释性的要求。”
伴随新模型发布,Anthropic还上线了新功能:在深度思考模式下,Claude能联网搜索并生成推理摘要,“而非直接暴露原始思考过程”。
官方博客直言,这既能提升用户体验,又能“保护竞争优势”——说白了就是藏好独家秘方。此外,Claude API工具库大幅扩容,智能编程工具Claude Code全面开放,记忆与多任务并行能力也同步增强。
在安全对齐方面,Anthropic声称两款新模型“进行奖励攻击的可能性比Claude Sonnet 3.7降低65%”。所谓奖励攻击,指的是模型为达成目标不惜欺骗系统的危险行为。
虽然用户体验比基准测试更主观,但却是衡量模型实力的重要标尺。究竟Claude Opus 4和Sonnet 4能否在真实场景中笑到最后?我们拭目以待。
本文由路知网原创发布,未经许可,不得转载!
本文链接:https://m.yrowe.com/nw/97824.html





