其实大家热烈讨论最多的DeepSeek Sparse Attention,让推理inference成本大大降低,
—— 这会特别适合进行 context length scaling,会是接下来重要的发展趋势
下图是prefilling阶段v3.2与v3.2的成本对比,右边是decoding阶段,成本降得太明显了。
当然,V3.2模型的RL训练,还进行了一些改进,正如technical report中所说:没有采用之前多阶段 multi-stage RL,而是单阶段one stage RL,
——即,将reasoning、agent、human alighment训练数据全部合并后,一把梭哈 进行RL训练。
称之为"Mixed RL Training",老董叔大胆预言,这将是接下来RL训练大家重点参考学习的范式。优点主要是解决multi-stage training过程中灾难性遗忘问题catastrophic forgetting issues,同时平衡多领域性能diverse domains performance。
至于RL训练的 reward shaping 设计部分,重点考虑到两个重点trade-off, 输出length vs accuracy 以及 language consistnecy vs accuracy,这都是咱们进行post-training常常遇到的问题了,具体来说,technical report设计方式如下:
3.1 对于reasoning和agent tasks,采用rule-based outcome reward,
提供非常明确的反馈信号,同时考虑到长度惩罚和语言一致性
3.2 对于通用general tasks,直接用 reward model 进行评估
没有评论:
发表评论