二维码
阿哥vca

扫一扫关注

当前位置: 首页 » 新闻资讯 » 工程百科 » 正文

苹果研究人员质疑人工智能在数学中的形式推理能力,发现法学硕士对同一问题的反应不同

放大字体  缩小字体 发布日期:2025-04-21 03:13:10    来源:本站    作者:admin    浏览次数:66    评论:0
导读

      新德里,10月12日:苹果公司的一个研究小组对大型语言模型(llm)的形式推理能力提出了质疑,尤其是在数学方面。他

  

  

  新德里,10月12日:苹果公司的一个研究小组对大型语言模型(llm)的形式推理能力提出了质疑,尤其是在数学方面。他们发现法学硕士在回答同一问题的不同实例时表现出明显的差异。文献表明,法学硕士的推理过程是概率模式匹配而不是形式推理。

  虽然llm可以匹配更抽象的推理模式,但它们缺乏真正的逻辑推理。输入令牌的微小变化可能会极大地改变模型输出,这表明存在强烈的令牌偏差,并表明这些模型非常敏感和脆弱。“此外,在需要正确选择多个令牌的任务中,得到准确答案的概率会随着所涉及的令牌或步骤的数量而指数下降,这强调了它们在复杂推理场景中固有的不可靠性,”苹果公司的研究人员在题为“gsm -符号:理解大型语言模型中数学推理的局限性”的论文中说。

  “GSM8K”基准被广泛用于评估小学水平问题的数学推理模型。虽然近年来GSM8K上llm的性能有了显着提高,但它们的数学推理能力是否真正提高尚不清楚,这引发了对报告指标可靠性的质疑。为了解决这些问题,研究人员对几个最先进的开放和封闭模型进行了大规模的研究。

  作者写道:“为了克服现有评估的局限性,我们引入了GSM-Symbolic,这是一个从符号模板创建的改进基准,允许生成各种各样的问题。”GSM-Symbolic支持更可控的评估,为度量模型的推理能力提供关键的见解和更可靠的度量。“我们的研究结果表明,法学硕士在回答同一问题的不同实例时表现出明显的差异,”研究人员说,并补充说,总体而言,“我们的工作为法学硕士在数学推理方面的能力和局限性提供了更细致的理解。”

 
(文/admin)
打赏
免责声明
• 
部分文章来源于网络,我们均标明出处,如果您不希望我们展现您的文章,请与我们联系,我们会尽快处理。
0相关评论
 

(c)2023-2023 www.agvcar.com All Rights Reserved

冀ICP备2024088436号