苹果研究人员质疑人工智能在数学中的形式推理能力，发现法学硕士对同一问题的反应不同_工程百科_

苹果研究人员质疑人工智能在数学中的形式推理能力，发现法学硕士对同一问题的反应不同

发布日期：2025-04-21 03:13:10 来源：本站作者：admin 浏览次数：84 评论：0

导读

　　　　　　新德里，10月12日：苹果公司的一个研究小组对大型语言模型（llm）的形式推理能力提出了质疑，尤其是在数学方面。他

　　新德里，10月12日：苹果公司的一个研究小组对大型语言模型（llm）的形式推理能力提出了质疑，尤其是在数学方面。他们发现法学硕士在回答同一问题的不同实例时表现出明显的差异。文献表明，法学硕士的推理过程是概率模式匹配而不是形式推理。

　　虽然llm可以匹配更抽象的推理模式，但它们缺乏真正的逻辑推理。输入令牌的微小变化可能会极大地改变模型输出，这表明存在强烈的令牌偏差，并表明这些模型非常敏感和脆弱。“此外，在需要正确选择多个令牌的任务中，得到准确答案的概率会随着所涉及的令牌或步骤的数量而指数下降，这强调了它们在复杂推理场景中固有的不可靠性，”苹果公司的研究人员在题为“gsm -符号：理解大型语言模型中数学推理的局限性”的论文中说。

　　“GSM8K”基准被广泛用于评估小学水平问题的数学推理模型。虽然近年来GSM8K上llm的性能有了显着提高，但它们的数学推理能力是否真正提高尚不清楚，这引发了对报告指标可靠性的质疑。为了解决这些问题，研究人员对几个最先进的开放和封闭模型进行了大规模的研究。

　　作者写道：“为了克服现有评估的局限性，我们引入了GSM-Symbolic，这是一个从符号模板创建的改进基准，允许生成各种各样的问题。”GSM-Symbolic支持更可控的评估，为度量模型的推理能力提供关键的见解和更可靠的度量。“我们的研究结果表明，法学硕士在回答同一问题的不同实例时表现出明显的差异，”研究人员说，并补充说，总体而言，“我们的工作为法学硕士在数学推理方面的能力和局限性提供了更细致的理解。”

(文/admin)

• 西双版纳旅游团，西双版纳旅游团直播	• 雅典奥运会男篮／雅典奥运会男篮冠军是哪个国家
• nba直播下载／nba直播下载手机版	• 维尔德vs富里三番战视频直播？维尔德vs富里3番
• 比利时足球（比利时足球明星）	• 梅西第七次金球奖（梅西第7次金球）
• nba直播吧jrs／nba直播吧jrs在线观看	• 上海体育在线观看（上海体育高清直播网）
• 公牛王朝首发阵容，公牛王朝首发阵容是谁	• 日本队世界杯预选赛赛程（日本队2022世界杯）

乔·拜登宣布退出竞选	1月6日被判暴乱罪的乔
卡塔尔提出建造三座发	我们什么时候能得到结

VIP

推广服务

苹果研究人员质疑人工智能在数学中的形式推理能力，发现法学硕士对同一问题的反应不同

平台客服