2025年2月22日星期六

大胆预测!DeepSeek宣布下周将会陆续开源 5 个代码库,最可能的竟然是RL?!

2月21日,DeepSeek 在其官网 X 账号宣布,接下来一周,会陆续开源5个代码库,进一步分享新的进展。

我估计其中大概率会开源RL训练框架吧,毕竟现在各个大厂的兄弟们都在努力复现DeepSeek R1训练过程,估计一个个调参调得精神都萎靡不振了,这时候把rl训练的代码和细节公开,属实久旱逢甘霖了。

既然这波DeepSeek大张旗鼓地在X上宣布开源,估计肯定会搞个大的,不然也配不上这个阵势。直接骑脸OpenAI,真正的OPEN AI。。


毕竟RL训练是OpenAI在最新论文"Competitive Programming with Large Reasoning Models"中,公开正式证实了DeepSeek-R1和Kimi k1.5推理模型在rl用于llm训练中的独立发现,确立了这两个开源推理大模型的地位。

即,rl优化了llm训练中的思维链CoT过程,实现reflection,能帮助模型识别并纠正错误,可以将complex tasks分解成可以manageable,并在某种方法失败时探索替代解决方案路径。这种in-context 推理能力显著提升了推理模型在泛化任务上的整体表现。

paper中关于这个观点的论述原文我放在这里,跟DeepSeek 技术报告中涉及到R1-zero的部分相似度极高:

Reinforcement learning refines this chain-of-thought process, helping the model identify and correct errors, break down complex tasks into manageable parts, and explore alternate solution paths when an approach fails. These in-context reasoning capabilities substantially boost o1's overall performance on a wide range of tasks.


至于为什么rl在llm post-training中的会取得这么明显的效果?

我觉得效果非常好的最大原因,应该是因为DeepSeek 在训练R1-zero的时候,强化学习是在v3基座上进行的。DeepSeek-v3作为强大的基座模型,语言理解和生成能力极强。

于是,用强大的模型基座能解决RL训练采样效率低的问题,(有点类似于最早alphago,有pre-training的先验知识),基座模型v3生成质量足够高的思维链,避免我们在强化训练中常见的探索维度爆炸但rewards 信号没办法稳定上升并收敛的问题。

另外,下图就是被讨论最多的R1-zero在RL训练过程中,随着训练steps的增加,其在训练集上的平均响应长度逐渐增加,表明其自然学会在推理任务中花费更多思考时间,从而提高解决复杂任务的能力。


所以,除了思维链每一步的质量,长度问题也很关键,随着训练步数的增加,思维链长度也是稳步上升,就能生成更复杂的推理过程,而正是因为基座模型足够强,思维链的长度同时被rewards 信号鼓励增加,形成正反馈,从而获得很好的效果。


甚至,推理模型有了显著的self-evolution, 即随着test-time computation的增加,产生了反思reflection、探索解决问题的替代方法,以及经常被提到的"Aha Moment"等Agent behavior,这些行为都是模型作为RL Agent与强化学习环境相互作用的结果。这就是为什么rl在大模型训练中至关重要。

当然了,这波随着DeepSeek持续开源代码库,已经有人建议把logo可以更新成这个了。。



没有评论:

发表评论

竞赛奖励发了2000+,还有很大的提升空间

纸上得来终觉浅,绝知此事要躬行,期待我们躬身入局,愿每位老铁都能在Web3中收获满满空投大毛哦! 前言-------------------------------------- Web3撸空投是投入产出比较高的一种方式。它主打一个以小搏大,风险小,收益高,花少量的 gas ...