阿里全新开源推理大模型QwQ-32B发布,性能与DeepSeek-R1相当且显存需求更低

阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型(LLM)家族成员——QwQ-32B。这款拥有320亿参数的推理模型,旨在通过强化学习(RL)提升在复杂问题解决任务上的性能。

据介绍,QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。这意味着该模型可用于商业和研究目的,企业能够直接将其应用于产品和应用,包括那些收费的服务。个人用户也可以通过Qwen Chat访问该模型。

QwQ,全称Qwen-with-Questions,是阿里巴巴于2024年11月首次推出的开源推理模型,目标是与OpenAI的o1-preview竞争。最初的QwQ通过在推理过程中审查和改进自身答案来增强逻辑推理和规划能力,尤其在数学和编码任务中表现出色。

此前的QwQ拥有320亿参数和32,000tokens的上下文长度,并在AIME和MATH等数学基准测试以及GPQA等科学推理任务中超越了o1-preview。然而,早期版本的QwQ在LiveCodeBench等编程基准测试中表现相对较弱,并且面临语言混合和偶尔的循环论证等挑战。

尽管如此,阿里巴巴选择以Apache2.0许可证发布该模型,使其与OpenAI的o1等专有替代方案区分开来,允许开发者和企业自由地进行适配和商业化。随着AI领域的发展,传统LLM的局限性日益显现,大规模扩展带来的性能提升逐渐减缓,这推动了对**大型推理模型(LRM)**的兴趣。LRM通过推理时推理和自我反思来提高准确性,例如OpenAI的o3系列和DeepSeek-R1。

QQ_1741223805921.png

最新的QwQ-32B通过整合强化学习和结构化自我提问,进一步提升了性能,旨在成为推理AI领域的重要竞争者。QwQ团队的研究表明,强化学习可以显著提高模型解决复杂问题的能力。QwQ-32B采用了多阶段强化学习训练方法,以增强数学推理、编码能力和通用问题解决能力.

在基准测试中,QwQ-32B与DeepSeek-R1、o1-mini和DeepSeek-R1-Distilled-Qwen-32B等领先模型展开了竞争,并在参数量小于部分竞品的情况下取得了有竞争力的结果。例如,DeepSeek-R1拥有6710亿参数(激活370亿),而QwQ-32B在性能相当的情况下,显存需求更小,通常在GPU上需要24GB vRAM,而运行完整的DeepSeek R1则需要超过1500GB vRAM。

QQ_1741223834554.png

QwQ-32B采用了因果语言模型架构,并进行了多项优化,包括64个Transformer层、RoPE、SwiGLU、RMSNorm和Attention QKV bias。它还采用了广义查询注意力(GQA),拥有131,072tokens的扩展上下文长度,并经历了包括预训练、监督微调和强化学习在内的多阶段训练。

QwQ-32B的强化学习过程分为两个阶段:首先专注于数学和编码能力,利用准确性验证器和代码执行服务器进行训练。第二阶段则通过通用奖励模型和基于规则的验证器进行奖励训练,以提高指令跟随、人类对齐和代理推理能力,同时不影响其数学和编码能力。

QwQ-32B还具备agentic capabilities,能够根据环境反馈动态调整推理过程。Qwen团队建议使用特定的推理设置以获得最佳性能,并支持使用vLLM进行部署。

Qwen团队将QwQ-32B视为通过扩展强化学习增强推理能力的第一,未来计划进一步探索扩展强化学习、整合代理与强化学习以实现长期推理,并持续开发为强化学习优化的基础模型,最终迈向通用人工智能(AGI)。

模型:https://qwenlm.github.io/blog/qwq-32b/

划重点:

🚀 阿里巴巴推出开源推理大模型QwQ-32B,采用强化学习技术,提升复杂问题求解能力.

💡 QwQ-32B在数学、编程等基准测试中表现与更大参数模型相当,且显存需求更低,并以Apache2.0协议开源,可免费商用.

🧠 该模型具备扩展上下文长度(13万 tokens)agentic capabilities,未来将继续探索强化学习在提升模型智能方面的潜力.

猜你喜欢

小辣椒3美国伦理:在科技与道德之间的智慧博弈
小辣椒3美国伦理:在科技与道德之间的智慧博弈

小辣椒3美国伦理者,乃当下信息科技迅猛而至之际,所引发之伦理思考。小辣椒3为一智能手机,然其背后涉及诸多伦理争议,足见科技与社会行为

欧美大片ppt免费ppt:迈入游戏的全新视界,释放玩家的无限想象力
欧美大片ppt免费ppt:迈入游戏的全新视界,释放玩家的无限想象力

在当今这个数字化时代,游戏早已成为我们生活的重要组成部分。欧美大片以其丰富的故事情节、精致的画面和引人入胜的音效,吸引着全球数以亿

伟大的妈妈35节阅读答案:深度解析母爱的伟大与无私,怎样理解母亲的牺牲与奉献?
伟大的妈妈35节阅读答案:深度解析母爱的伟大与无私,怎样理解母亲的牺牲与奉献?

母亲,这个词听上去平常却又分外沉重。回想起自己的成长历程,无数个温暖的瞬间都与母亲的付出密不可分。伟大的妈妈不仅仅是家庭的支柱,更

法国满天星《勤务秘书》:为白领职场提供全新支持和互动平台
法国满天星《勤务秘书》:为白领职场提供全新支持和互动平台

法国满天星《勤务秘书》,一部关乎职场小助手的佳作,着眼于现代白领之工作生活,旨在为其提供诸多便捷之服务。此书将助力职场人士更高效地

卖保险套的女销售3:她的故事如何改变了性教育的认知和态度
卖保险套的女销售3:她的故事如何改变了性教育的认知和态度

在当今社会,性教育逐渐被人们所重视。尤其是在年轻人中,如何传播健康的性知识成为了一个重要课题。在这个关系到人们身体健康与心理发展的

在情趣店上班被爆CAO翻了:情趣产业幕后故事引发社会热议
在情趣店上班被爆CAO翻了:情趣产业幕后故事引发社会热议

在情趣店上班被爆CAO翻了,此事传出之后,引发社会广泛讨论,众人皆对此现象感到震惊。情趣店作为满足特殊需求之场所,背后隐藏着多少不为

中字hd丈夫的下属的成就:在职场上展现卓越领导力与团队协作能力
中字hd丈夫的下属的成就:在职场上展现卓越领导力与团队协作能力

在现代职场环境中,领导者的影响力往往超越个人的成就,展现团队的成功才是衡量杰出管理者的重要标准。中字hd的丈夫作为行业中的佼佼者,其

外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计
外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计

电子游戏作为一种新兴的艺术形式,近年来迅速崛起,成为全球文化现象的重要组成部分。从早期的像素艺术到如今的高清3D画面,游戏的视觉效果

《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法
《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法

在当今快节奏的生活中,社交游戏已经成为一种新兴的娱乐方式,尤其是那些能够引发思考与交流的游戏更是备受玩家青睐。《老公请部长家里吃饭

亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)
亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)

在今天的数字时代,游戏不仅仅是消遣娱乐的工具,它更是一个深蕴文化和情感的载体。从简单的图形和音效演变为如今复杂的多维度世界,游戏的