2025年9月18日星期四

DeepSeek登自然封面意味什么?

先开门见山给出结论:某些学科(典型如生化环材)论文登上Nature,是论文最大的荣耀,而计算机computer science 领域论文登上Nature,本身一般不会带来多大荣耀,但是DeepSeek-R1这类LLM领域划时代的论文能登上Nature,
—— 其实是Nature最大的荣耀。。
论文主要内容已经在2025年初一月份techincal report中发布了,因为这次Nature论文补充了很多训练细节,尤其是在supplementary information和rebuttals中,还是有不少亮点的,先简单说几点。
首先在RL infra部分,论文给出了整体RL训练的整体framwork,主要包括Rollout + inference + Rule-based reward model + training。
图片
值得一提的是在RL训练中,DeepSeek团队对GRPO和PPO两种算法进行的对比实验:  
模型是DeepSeek-Coder-V2-Lite 在MATH task上对比。他们测试了优势估计函数GAE中的参数λ,可以看出来在λ=1的时候,PPO与GRPO训练基本上是比较接近的了。 
需要注意的是大多数情况下λ都是默认设置0.95,或者更大,一般不是1。
因为当初PPO算法提出的GAE策略中,这个参数λ 控制的是Bias-Variance Trade-off:
当λ = 0 时,计算出来的优势函数A本质上是1-step TD error;
 当λ = 1 时,变成了类似于蒙特卡洛的优势估计方式,更倾向于用更长尺度的实际信息来计算A。 
图片
尽管PPO经过调参可以达到GRPO效果,但DeepSeek最后仍采用GRPO,主要考虑到节省显卡计算资源。 
论文中还放出了捕捉到的典型Reward hacking现象,即随着训练steps增加,rewards稳定上升收敛,但是CodeForces performance却下降。
图片

没有评论:

发表评论

同学失业回家10天,刷分1星期领空投1500+。。。。。。。。

纸上得来终觉浅,绝知此事要躬行,期待我们躬身入局,愿每位老铁都能在Web3中收获满满空投大毛哦! 前言-------------------------------------- Web3撸空投是投入产出比较高的一种方式。它主打一个以小搏大,风险小,收益高,花少量的 gas ...