苹果研究团队发布新基准GSM-Symbolic：揭示大语言模型的数学推理短板！

来源：互联网· 2024-10-14 15:16:54

最近，苹果公司的研究人员对大语言模型（LLM）的数学推理能力进行了深入研究，推出了一项名为 GSM-Symbolic 的新基准测试。

这个新基准测试是在 GSM8K 的基础上发展的，后者主要用于评估基础数学能力。虽然许多 LLM 在 GSM8K 上的表现有所提升，但科学界对这些模型的推理能力仍然存有疑问，认为现有的评估指标可能无法全面反映它们的真实能力。研究发现，LLM 通常依赖于概率模式匹配，而非真正的逻辑推理，导致它们对输入的小变化非常敏感。

在这项新研究中，研究人员使用符号模板生成多样化的数学问题，从而提供更可靠的评估。实验结果显示，当问题的数值或复杂度增加时，LLM 的表现显著下降。此外，即使是添加与问题表面相关但实际上无关的信息，也可能导致模型性能下降高达65%。这些结果再次印证了 LLM 在推理时更多依赖模式匹配，而非正式的逻辑推理。

GSM8K 数据集包含超过8000个适合年级水平的数学问题，因其流行而引发了一些风险，比如数据污染和小问题变化带来的性能波动。为了应对这些挑战，GSM-Symbolic 的出现使得问题的多样性得到了有效控制。这项基准测试对20多种开放和封闭模型进行了评估，使用了来自100个模板的5000个样本，展现了 LLM 在数学推理能力上的深刻见解和局限性。

初步实验表明，不同模型在 GSM-Symbolic 上的性能差异显著，整体准确率低于在 GSM8K 上所报告的表现。研究进一步探讨了更改变量名称和数值对 LLM 的影响，结果表明数值变化对性能的影响更大。此外，问题的复杂性也直接影响准确性，复杂问题导致性能显著下降。这些结果表明，模型在处理数学问题时可能更依赖于模式匹配，而非真正的推理能力。

这项研究强调了当前 GSM8K 评估的局限性，并介绍了新基准 GSM-Symbolic，旨在评估 LLM 的数学推理能力。总体而言，研究结果表明，LLM 在处理复杂问题时仍需进一步提升逻辑推理能力。

您可能关注: 语言模型

专业AI论文写作一键生成万字论文只需5分钟

文章来源: https://cy211.cn/aizixun/3981.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表本站立场。

上一篇伴随AI搜索引擎崛起，谷歌美国搜索广告市场份额可能跌至50%

下一篇苹果三季度出货量创新高无限接近全球第一！

相关推荐