阿里全新开源推理大模型QwQ-32B发布，性能与DeepSeek-R1相当且显存需求更低-梦之都

阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型（LLM）家族成员——QwQ-32B。这款拥有320亿参数的推理模型，旨在通过强化学习（RL）提升在复杂问题解决任务上的性能。

据介绍，QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。这意味着该模型可用于商业和研究目的，企业能够直接将其应用于产品和应用，包括那些收费的服务。个人用户也可以通过Qwen Chat访问该模型。

QwQ，全称Qwen-with-Questions，是阿里巴巴于2024年11月首次推出的开源推理模型，目标是与OpenAI的o1-preview竞争。最初的QwQ通过在推理过程中审查和改进自身答案来增强逻辑推理和规划能力，尤其在数学和编码任务中表现出色。

此前的QwQ拥有320亿参数和32，000tokens的上下文长度，并在AIME和MATH等数学基准测试以及GPQA等科学推理任务中超越了o1-preview。然而，早期版本的QwQ在LiveCodeBench等编程基准测试中表现相对较弱，并且面临语言混合和偶尔的循环论证等挑战。

尽管如此，阿里巴巴选择以Apache2.0许可证发布该模型，使其与OpenAI的o1等专有替代方案区分开来，允许开发者和企业自由地进行适配和商业化。随着AI领域的发展，传统LLM的局限性日益显现，大规模扩展带来的性能提升逐渐减缓，这推动了对**大型推理模型（LRM）**的兴趣。LRM通过推理时推理和自我反思来提高准确性，例如OpenAI的o3系列和DeepSeek-R1。

最新的QwQ-32B通过整合强化学习和结构化自我提问，进一步提升了性能，旨在成为推理AI领域的重要竞争者。QwQ团队的研究表明，强化学习可以显著提高模型解决复杂问题的能力。QwQ-32B采用了多阶段强化学习训练方法，以增强数学推理、编码能力和通用问题解决能力.

在基准测试中，QwQ-32B与DeepSeek-R1、o1-mini和DeepSeek-R1-Distilled-Qwen-32B等领先模型展开了竞争，并在参数量小于部分竞品的情况下取得了有竞争力的结果。例如，DeepSeek-R1拥有6710亿参数（激活370亿），而QwQ-32B在性能相当的情况下，显存需求更小，通常在GPU上需要24GB vRAM，而运行完整的DeepSeek R1则需要超过1500GB vRAM。

QwQ-32B采用了因果语言模型架构，并进行了多项优化，包括64个Transformer层、RoPE、SwiGLU、RMSNorm和Attention QKV bias。它还采用了广义查询注意力（GQA），拥有131，072tokens的扩展上下文长度，并经历了包括预训练、监督微调和强化学习在内的多阶段训练。

QwQ-32B的强化学习过程分为两个阶段:首先专注于数学和编码能力，利用准确性验证器和代码执行服务器进行训练。第二阶段则通过通用奖励模型和基于规则的验证器进行奖励训练，以提高指令跟随、人类对齐和代理推理能力，同时不影响其数学和编码能力。

QwQ-32B还具备agentic capabilities，能够根据环境反馈动态调整推理过程。Qwen团队建议使用特定的推理设置以获得最佳性能，并支持使用vLLM进行部署。

Qwen团队将QwQ-32B视为通过扩展强化学习增强推理能力的第一步，未来计划进一步探索扩展强化学习、整合代理与强化学习以实现长期推理，并持续开发为强化学习优化的基础模型，最终迈向通用人工智能（AGI）。

模型:https://qwenlm.github.io/blog/qwq-32b/

划重点:
🚀 阿里巴巴推出开源推理大模型QwQ-32B，采用强化学习技术，提升复杂问题求解能力.
💡 QwQ-32B在数学、编程等基准测试中表现与更大参数模型相当，且显存需求更低，并以Apache2.0协议开源，可免费商用.
🧠 该模型具备扩展上下文长度（13万 tokens）和agentic capabilities，未来将继续探索强化学习在提升模型智能方面的潜力.