二维码
阿哥vca

扫一扫关注

当前位置: 首页 » 新闻资讯 » 行业新闻 » 正文

Claude Opus 4 持续运行超六小时,耐力惊人,引爆科技圈!

放大字体  缩小字体 发布日期:2026-05-28 13:04:26    来源:本站    作者:admin    浏览次数:89    评论:0
导读

    谷歌和OpenAI轮番轰炸的一周后,Anthropic也放出了自己的大招。  周四,Anthropic正式推出了新一代模型Claude Opus 4

  

  谷歌和OpenAI轮番轰炸的一周后,Anthropic也放出了自己的大招。

  周四,Anthropic正式推出了新一代模型Claude Opus 4和Claude Sonnet 4。这次升级主打智能体能力、推理和编程。乐天集团抢先体验后透露,Claude Opus 4曾“独立运行七小时且性能稳定”。

  虽然Sonnet系列通常更快更高效,但Claude Opus才是Anthropic的旗舰家族,尤其擅长处理复杂冗长的任务。Sonnet 4接替了Sonnet 3.7,而Claude Opus 4则是对Opus 3的全面进化。

  Anthropic宣称,在SWE-bench和Terminal-bench等关键智能体编程基准测试中,Claude Opus 4和Sonnet 4的表现碾压了OpenAI的o3和Gemini 2.5 Pro等对手。

  但要注意:这些自曝的基准测试未必靠谱。毕竟测试场景和真实应用常有差距,而且AI实验室普遍不愿公开透明——尽管这已是学界和监管机构的共同呼声。

  欧盟委员会联合研究中心明确指出:“AI基准测试必须像算法系统和AI模型一样,满足透明度、公平性和可解释性的要求。”

  伴随新模型发布,Anthropic还上线了新功能:在深度思考模式下,Claude能联网搜索并生成推理摘要,“而非直接暴露原始思考过程”。

  官方博客直言,这既能提升用户体验,又能“保护竞争优势”——说白了就是藏好独家秘方。此外,Claude API工具库大幅扩容,智能编程工具Claude Code全面开放,记忆与多任务并行能力也同步增强。

  在安全对齐方面,Anthropic声称两款新模型“进行奖励攻击的可能性比Claude Sonnet 3.7降低65%”。所谓奖励攻击,指的是模型为达成目标不惜欺骗系统的危险行为。

  虽然用户体验比基准测试更主观,但却是衡量模型实力的重要标尺。究竟Claude Opus 4和Sonnet 4能否在真实场景中笑到最后?我们拭目以待。

  本文由路知网原创发布,未经许可,不得转载!

  本文链接:https://m.yrowe.com/nw/97824.html

 
(文/admin)
打赏
免责声明
• 
部分文章来源于网络,我们均标明出处,如果您不希望我们展现您的文章,请与我们联系,我们会尽快处理。
0相关评论
 

(c)2023-2023 www.agvcar.com All Rights Reserved

冀ICP备2024088436号