立即注册

文章发布

首页 > AI资讯 > AI创业头条

今日推荐

GEO优化

抢占AI搜索流量入口

AI长篇写作

写小说、写论文等

AI生成思维导图

一键快速生成思维导图

轻创AI用户注册

免费获取体验账号

阿里开源新模型：超GPT-4o，数学能力全球第一！

来源：互联网· 2024-08-09 09:14:17

阿里巴巴开源了最新数学模型Qwen2-Math，一共有基础和指令微调两种版本，包括1.5B、7B和72B三种参数。

根据阿里在主流数学基准测试显示，Qwen2-Math-72B指令微调版本的性能超过了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名闭源模型，就连Meta最新开源的超强模型Llama-3.1-405B也照样拿下。

也就是说，Qwen2-Math-72B是目前全球最强的数学推理大模型。不知能否挑战一下前不久谷歌刚获得国际数学奥林匹克竞赛银牌，仅差1分获得金牌的双混合模型AlphaProof和AlphaGeometry 2（这两个模型还处于研究阶段）。

基础模型

Qwen2-Math的基础模型使用Qwen2-1.5B、7B和72B进行初始化，然后在精心设计的高质量数学专用语料库上进行预训练，该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen-2 模型合成的数学预训练数据。

阿里在在三个英语数学基准 GSM8K、Math 和MMLU-STEM 上评估了Qwen2-Math 基模型。同时评估了三个中国数学基准 CMATH，GaoKao Math Cloze 和 GaoKao Math QA，所有评估均使用 Few-shot CoT 方式。

结果显示，Qwen2-Math基础模型的性能大幅度超越了Llama-3.1-8B/7B/405B全系列。

指令微调模型

在开发指令微调模型方面， Qwen2-Math-72B 训练的模型采用了密集的奖励信号与二元信号的结合，二元信号在此起到指示模型是否正确回答问题的作用，类似于分类任务中的标签，有助于模型在训练过程中进行自我校正。

结合信号后，模型通过拒绝采样方法构建了SFT数据集。拒绝采样是一种蒙特卡罗方法，通过在更大范围内按照均匀分布随机采样，然后接受或拒绝采样点来估计复杂问题的概率分布。

这种方法在处理复杂概率分布时特别有用，因为它不要求分布的概率分布函数可逆，从而解决了一些分布难以直接采样的问题。

随后使用GRPO强化学习算法进行优化，这是近端策略优化的一种变体，通过迭代过程进行训练，其中奖励模型会根据策略模型的输出不断更新，以确保策略的持续改进。

阿里使用英语和中文的数学基准评测对Qwen2-Math-72B指令微调模型进行了综合评估。还使用了更有难度的OlympiadBench、CollegeMath、高考（GaoKao）、AIME2024、 AMC2023以及中国2024年高考/中考数学题进行了测试。

结果显示，其数学推理性能大幅度超越了GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等知名开闭源模型。阿里表示，Qwen2-Math已经能解答一些数学竞赛难题，包括多道IMO竞赛题。

在预训练和微调数据集上阿里都进行了去污染处理，特别是清洗了对GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math等知名基准测试数据集有重叠的正例污染样本，以保证测试效果的准确性、公平性。

目前，Qwen2-Math模型仅支持英文，但阿里表示会很快推出中英双语版本，帮助更多的用户开发生成式AI应用。

专业AI论文写作一键生成万字论文只需5分钟

文章来源: https://www.cy211.cn/aizixun/3602.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表本站立场。

上一篇腾讯混元领跑多模态AI：全方位领先GPT-4/Claude-

下一篇 OpenAI：ChatGPT免费用户将可使用DALL-E 3

相关推荐

美国AI创业公司状告政府：切断大模型访问等于"断人活路"

　据彭博社报道，一家名为Legion的美国AI创业公司已向联邦政府提起诉讼，状告美国政府。起因是美国政府下令要求Anthropic公司不得向外国公民提供其最先进的 ...

未来十年所有行业都能用AI重做一遍！

　我是黄新伟，深圳市星远创业科技有限公司创始人、AI创业之家主理人，同时担任广西新梦想教育科技有限公司合伙人，深耕全域互联网创业20年。当下很多老板、创业者迷茫： ...

月之暗面估值飙到315亿美元：普通人错过大模型，别再错过这波躺赚的红利了

　今天刷到月之暗面估值干到315亿美元的消息，我直接拍了下大腿——又有一堆普通人要靠着这波风口赚得盆满钵满，可惜90%的人还以为这只是资本家的游戏，跟自己半毛钱关 ...

读懂物理AI：AI下半场赛道变革，数字AI创业者该如何抓住新机遇

　我是黄新伟，AI创业之家创始人，深耕数字AI落地服务20年。近几年大量创业者依托大模型做GEO内容、AI智能体、文案工具、线上营销服务，也就是我们熟知的数字AI ...

黄新伟深度解读什么是AI员工，该如何用好AI员工

　我是黄新伟，AI创业之家创始人，深耕互联网全域运营20年，旗下同时推出创家GEO全域流量布局、企业AI智能体（AI员工）两大核心服务。当下很多企业只把AI当成写 ...

Kimi全速迭代，普通人AI创业迎来更强底层底座

　2026年国产大模型竞争进入白热化阶段，月之暗面Kimi最新技术进展释放出明确信号：底层模型能力持续突破，依托成熟国产大模型做应用服务，才是普通人稳妥创业路线。 ...

AI创业之家

GEO优化

AI长篇写作

AI生成思维导图

轻创AI用户注册

阿里开源新模型：超GPT-4o，数学能力全球第一！

AI智能对话

智能聊天对话，秒回答

AI模型创作

它无所不知，无所不能

GEO优化

抢占AI搜索榜首

服务热线

13826579603