2025年9月30日星期二

DeepSeek-V3。2-Exp 模型发布!

DeepSeek V3.2-Exp是很棒的试验性模型 先简单说三点:
第一、推理成本:

其实大家热烈讨论最多的DeepSeek Sparse Attention,让推理inference成本大大降低,

—— 这会特别适合进行 context length scaling,会是接下来重要的发展趋势

下图是prefilling阶段v3.2与v3.2的成本对比,右边是decoding阶段,成本降得太明显了。
图像
但是模型性能几乎持平,在technical report中各个Benchmark对比结果如下图所示。
图片
第二、强化学习GRPO算法:
在前几天有些OpenAI研究员公开质疑GRPO系列算法,—— "已经远远落后于先进实验室所用的算法",并在推特X平台上,引发各国AI从业者们激烈争论之后 (如下图,注:OpenAI 研究员原贴已删除),
图片
DeepSeek-V3.2模型证明GPRO依旧能打,如下图所示,内容来自V3.2的technical report。
图片
第三、强化学习RL训练的改进:

当然,V3.2模型的RL训练,还进行了一些改进,正如technical report中所说:没有采用之前多阶段 multi-stage RL,而是单阶段one stage RL,

——即,将reasoning、agent、human alighment训练数据全部合并后,一把梭哈 进行RL训练。

称之为"Mixed RL Training",老董叔大胆预言,这将是接下来RL训练大家重点参考学习的范式。优点主要是解决multi-stage training过程中灾难性遗忘问题catastrophic forgetting issues,同时平衡多领域性能diverse domains performance。

至于RL训练的 reward shaping 设计部分,重点考虑到两个重点trade-off, 输出length vs accuracy 以及 language consistnecy vs accuracy,这都是咱们进行post-training常常遇到的问题了,具体来说,technical report设计方式如下:

3.1 对于reasoning和agent tasks,采用rule-based outcome reward,
提供非常明确的反馈信号,同时考虑到长度惩罚和语言一致性
3.2 对于通用general tasks,直接用 reward model 进行评估
总之,technical report虽然不长,连上references & Appendices才6页,但信息量丰富,—— 值得老董叔有时间了,再写篇文章详细分析分析。

没有评论:

发表评论