通八卦网 > 社会 > 正文

Qwen2.5登上全球开源王座，72B模型击败LIama3 405B，轻松胜过GPT-4o-min

2024-09-20 00:56 来源：网络点击：

Qwen2.5登上全球开源王座，72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

在指令跟踪、长文本生成、结构化数据理解和结构化输出生成方面均有显著提升。

击败 LIama3！Qwen2.5 登上全球开源王座。

而后者仅以五分之一的参数规模，就在多任务中超越 LIama3 405B。

各种任务表现也远超同类别的其他模型。

跟上一代相比，几乎实现了全面提升，尤其在一般任务、数学和编码方面的能力表现显著。

值得注意的是，此次 Qwen 可以说是史上最大规模开源，基础模型直接释放了 7 个参数型号，其中还有六七个数学、代码模型。

像 14B、32B 以及轻量级 Turbo 模型胜过 GPT-4o-mini。

除 3B 和 72B 模型外，此次所有开源模型均采用 Apache 2.0 许可。

Qwen2.5：0.5B、1.5B、3B、7B、14B、32B 和 72B

Qwen2.5-Coder：1.5B、7B 和 32B（on the way）

Qwen2.5-Math：1.5B、7B 和 72B。

直接一整个眼花缭乱，已经有网友开始用上了。

Qwen2.5 72B 与 LIama3.1 405B 水平相当

相比于 Qwen2 系列，Qwen2.5 系列主要有这么几个方面升级。

首先，全面开源。

他们研究表明，用户对于生产用的 10B-30B 参数范围以及移动端应用的 3B 规模的模型有浓厚兴趣。

因此在原有开源同尺寸（0.5/1.5/7/72B）基础上，还新增了 14B、32B 以及 3B 的模型。

同时，通义还推出了 Qwen-Plus 与 Qwen-Turbo 版本，可以通过阿里云大模型服务平台的 API 服务进行体验。

可以看到，超半数模型都支持 128K 上下文，最多可生成 8K 上下文。

在他们的综合评测中，所有模型跟上一代相比实现了能力的跃迁，比如 Qwen2.5-32B 胜过 Qwen2-72B，Qwen2.5-14B 胜过 Qwen2-57B-A14B。

其次，预训练数据集更大更高质量，从原本 7 万亿个 token 扩展到最多 18 万亿个 token。

然后就是多方面的能力增强，比如获得更多知识、数学编码能力以及更符合人类偏好。

此外，还有在指令跟踪、长文本生成（从 1k 增加到 8K 以上 token）、结构化数据理解（如表格）和结构化输出生成（尤其是 JSON）方面均有显著提升。

来看看实际效果。

表格理解

生成 JSON 输出

此外，Qwen2.5 模型总体上对系统提示的多样性具有更强的适应能力，增强了聊天机器人的角色扮演实现和条件设定能力。

那么就来看看具体模型能力如何。

旗舰模型在前文已经看到，它在各个任务都有明显的进步。

而像 0.5B、1.5B 以及 3B 这样的小模型，性能大概是这样的：

值得注意的是，Qwen2.5-0.5B 型号在各种数学和编码任务上的表现优于 Gemma2-2.6B。

除此之外，Qwen2.5 还展现了指令调优之后的模型性能，72B-Instruct 在几项关键任务中超越了更大的 Llama-3.1-405B，尤其在数学（MATH：83.1）、编码（LiveCodeBench：55.5）和聊天（Arena-Hard：81.2）方面表现出色。

还有像 32B-Instruct、14B-Instruct 以及 Qwen2.5-Turbo，展现了与 GPT-4o-mini 相当的能力。

Qwen 史上最大规模开源

除了基础模型，此次 Qwen 还放出了代码和数学专业模型。

Qwen2.5-Coder 提供了三种模型大小：1.5B、7B 和 32B 版本（即将推出）。

主要有两点改进：代码训练数据规模的扩大以及编码能力的增强。

Qwen2.5-Coder 在更大规模的代码数据上进行训练，包括源代码、文本代码基础数据和合成数据，总计 5.5 万亿个 token。

它支持 128K 上下文，覆盖 92 种编程语言。开源的 7B 版本甚至超越了 DeepSeek-Coder-V2-Lite 和 Codestral 等更大型的模型，成为目前最强大的基础代码模型之一。

而数学模型这边，Qwen2.5-Math 主要支持通过 CoT 和 TIR 解决英文和中文数学问题。

目前不建议将此系列模型用于其他任务。

Qwen2.5-Math 这一系列开源了包括基础模型 Qwen2.5-Math-1.5B/7B/72B、指令调优模型 Qwen2.5-Math-1.5B/7B/72B-Instruct，以及数学奖励模型 Qwen2.5-Math-RM-72B。

与 Qwen2-Math 系列仅支持使用思维链（CoT）解决英文数学问题不同，Qwen2.5-Math 系列扩展支持使用思维链和工具集成推理（TIR）解决中英文数学问题。

跟上一版本相比，他们主要干了这三件事来实现基础模型升级。

利用 Qwen2-Math-72B-Instruct 模型来合成额外的高质量数学预训练数据。

从网络资源、书籍和代码中收集更多高质量的数学数据，尤其是中文数据，跨越多个时间周期。

利用 Qwen2.5 系列基础模型进行参数初始化，展现出更强大的语言理解、代码生成和文本推理能力。

最终实现了能力的提升，比如 1.5B/7B/72B 在高考数学问答中分别提升了 3.4、12.2、19.8 分。

好了，以上是 Qwen2.5 系列一整套堪称「史上最大规模」的开源。

不叫草莓叫猕猴桃

阿里通义开源负责人林俊旸也分享了背后的一些细节。

他首先表示，在开源 Qwen2 的那一刻就开始了 Qwen2.5 项目。

在这过程中，他们认识到了很多问题和错误。

比如在预训练方面，他们们只是专注于提高预训练数据的质量和数量，使用了很多大家熟悉的方法。

比如文本分类器用于召回高质量数据，LLM 评分器用于对数据进行评分，这样就能在质量和数量之间取得平衡。

还有在创建专家模型的同时，团队还利用它们生成合成数据。

在后期训练时候，用户的反馈来帮助他们逐一解决问题，同时他们也在探索 RLHF 方法，尤其是在线学习方法。

对于之后的升级和更新，他表示受 o1 启发，认为应该深入研究推理能力。

值得一提的是，在 Qwen2.5 预热之时，他们团队就透露不叫草莓，叫猕猴桃。

好了，现在猕猴桃可以快快用起来了。

参考链接：

[ 1 ] https://x.com/JustinLin610/status/1836461575965938104

[ 2 ] https://x.com/Alibaba_Qwen/status/1836449414220779584 [ 3 ] https://qwenlm.github.io/blog/qwen2.5/

[ 4 ] https://qwenlm.github.io/blog/qwen2.5-llm/

[ 5 ] https://qwenlm.github.io/blog/qwen2.5-coder/

[ 6 ] https://qwenlm.github.io/blog/qwen2.5-math/

本文来自微信公众号 " 量子位 "，作者：白小交。

相关标签：

上一篇：集体宣布：“降息”！
下一篇：广东召开防台风工作会商会议，研判台风“普拉桑”等三防形势

集体宣布：“降息”！

2024-09-20 00:54:03
中美航班为何恢复难？

2024-09-20 00:51:47
房屋养老金多少才够用？机构估算还需4.4万亿元

2024-09-20 00:49:31
70万吨垃圾倒入黄河？联合调查组：举报视频均为捏造！涉事男子被拘，内情披露

2024-09-20 00:47:15
这些企业已经通过AI节能减排省下一大笔费用了

2024-09-20 00:44:59
广州南沙“取消限购”“买房送户口”？销售一线已经开始行动

2024-09-20 00:42:43
定了！美联储罕见降息50个基点，鲍威尔透露重磅信号！如何影响全球资产？

2024-09-20 00:40:27
“餐饮回收人”讲述行业动荡：去年初营业额涨了5倍，今年7月回收42家火锅店

2024-09-20 00:38:12
9死、约2800人受伤！寻呼机成为致命“武器”，手机是否有同样隐患？

2024-09-20 00:35:56
一周订单突破2万！极氪7X首批量产下线：9月20日正式上市

2024-09-18 03:32:23
阳澄湖大闸蟹被台风集体吹“越狱”？蟹农回应：几家幸运几家愁

2024-09-18 03:30:08
最高续航510km！五菱缤果SUV五座版官宣：9月20日上市

2024-09-18 03:27:52
多所高校已本研“倒挂”

2024-09-18 03:25:36
市场博弈筑底预期！港股内房股持续反弹佳兆业集团一度涨约40%

2024-09-18 03:23:21
“中秋穗月相约广东”，广州中秋节主题文化活动开启

2024-09-18 03:21:05
中方要求以色列严肃调查和追责所有人道工作者遇袭事件

2024-09-18 03:18:49
直播卖惨、全靠演技，百万粉丝网红“小小努力生活”被抓

2024-09-18 03:16:34
iPhone16首周末预购销量同比下降12.7%，分析师：苹果近年来创新不足

2024-09-18 03:14:18
填补月背研究历史空白！嫦娥六号挖回的月背土壤成分官方揭秘

2024-09-18 03:12:02
经济学家料联储今年降息三次，对未来利率路径的预测比联储的预测更陡

2024-09-15 19:14:51

热门图文

红婶恐怖片原图三个形象中两个很恐怖

红婶恐怖片原图三个形象中两个很恐怖

自己打pp的方法无声还痛（专家图解如何科学地打屁股！）

自己打pp的方法无声还痛（专家图解如何科学地打屁股！）

两个人在一起久了话题越来越少，该怎么办

两个人在一起久了话题越来越少，该怎么办

盘点：10位享受国务院特殊津贴的国家一级演员，刘德华竟榜上无名

盘点：10位享受国务院特殊津贴的国家一级演员，刘德华竟榜上无名

茅台系列酒档次排名（茅台系列酒划分出来的几个等级）

茅台系列酒档次排名（茅台系列酒划分出来的几个等级）

睡过劳荣枝的体验在酒吧做兼职显得很妩媚

睡过劳荣枝的体验在酒吧做兼职显得很妩媚

火影忍者萨姆伊的污图以小刀作为武器

火影忍者萨姆伊的污图以小刀作为武器

100元雨花石与50元区别，包装口感不同(香精含量低)

100元雨花石与50元区别，包装口感不同(香精含量低)

中国丧事十大悲曲(丧事十大悲曲唢呐别故乡)

中国丧事十大悲曲(丧事十大悲曲唢呐别故乡)

黄宏案怎么了八一厂厂长免职被抓是真的吗

黄宏案怎么了八一厂厂长免职被抓是真的吗

热门排行

随机推荐