数字货币: 阿里发布最新开源推理模型QwQ-32B，支持消费级显卡本地部署，但是有三点需要特别注意！

2025年3月5日星期三

需要大家特别注意的三点：

一、模型架构，QWQ-32B是dense model，而非DeepSeek R1的MoE sparse model。

阿里的推理模型QWQ-32B，是在320亿参数的Qwen2.5-32B基座上进行post-training的，而这个模型是dense model而非混合专家MoE。

从benchmark 上看，性能足以媲美基于MoE架构DeepSeek R1 671B模型，而后者总参数量为6710亿，每次前向传递仅激活参数为37B，即370亿参数。

二、坚持scale reinforcement learning。

即RL 后训练可以不断提高模型性能，尤其是在数学和编码方面，并且QWQ-32B推理模型在benchmark上的表现，已经证明持续坚持scaling RL 可以帮助中型模型实现与巨型 MoE 模型相媲美的性能。

具体来说，QWQ-32B是在冷启动的基础上开展了大规模强化学习。在初始阶段，特别针对数学和编程任务进行了 RL 训练。

与依赖传统的奖励模型（reward model）不同，通过校验生成答案的正确性来为数学问题提供反馈，并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。随着训练轮次的推进，这两个领域中的性能均表现出持续的提升。

在第一阶段的 RL 过后，增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。通过少量步骤的通用 RL，可以提升其他通用能力，同时在数学和编程任务上的性能没有显著下降。

即OpenAI 在论文"Competitive Programming with Large Reasoning Models"中，证实了DeepSeek R1系列推理模型的独立发现，LLM上用强化学习rl可以大幅度提升复杂推理和coding任务的表现：

We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks.

即，rl优化了llm训练中的思维链CoT过程，实现reflection，能帮助模型识别并纠正错误，可以将complex tasks分解成可以manageable，并在某种方法失败时探索替代解决方案路径。

这种in-context 推理能力显著提升了推理模型在泛化任务上的整体表现。

——

另外，ollama上已经可以本地部署了，"ollama run qwq"，具体可参考我之前写的文章：太厉害了！用最拉的电脑部署本地推理大模型Deepseek R1，Benchmark 不输GPT-4o?!