今天看到Ross Taylor在X上发布了一段关于强化学习(RL)的讨论,原文如下:
"RL is very expensive compared to SFT, which makes it impractical to scale for most folks outside of big labs.
And yet, RL is perfect for businesses because you can optimise the metric you actually care about. Not the next token; but the next sale or the next customer.
Already great algorithmic progress being made to bring down costs - no value model for GRPO, optional reference model, better sample efficiency DAPO - but still lots of low-hanging fruit to improve things further.
Early days in the second age of RL; plenty of work to be done."
老董很认同Ross Taylor的观点,一方面,RL确实在理论上对企业具有巨大吸引力。与SFT不同,RL并不局限于优化大模型预测next token的准确性,而是能够直接针对企业真正关心的关键指标等等进行优化,这种能力使得RL在商业场景中,似乎显得尤为强大。
然而,RL的高成本是其推广的最大障碍。Ross Taylor也提到了,与SFT相比,RL的计算资源需求更高,训练过程更复杂,数据要求也更大。
这使得只有资源雄厚的大型实验室或企业才能真正负担得起强化学习的规模化应用。
对于中小型公司或独立开发者而言,这种成本是很难负担的,于是,这种现状在一定程度上限制了RL从学术研究走向广泛商业应用的步伐。尽管其潜力巨大,但实际操作中的资源约束,让许多人望而却步。
Ross Taylor提到对RL算法进步感到非常乐观,典型的例子,GRPO通过取消价值模型和引入可选的参考模型,显著降低了训练的复杂性和资源需求。DAPO在样本效率上的改进也让人眼前一亮,使得模型在更少的数据下就能达到较好的性能。这些技术进步表明,RL领域正在积极应对成本问题。
(涉及到算法细节,可以参考我的回答:为什么大家都在吹deepseek的GRPO?)
但老董还要再强调一句,没被RL毒打过一般是乐观的。
如果没有亲身经历过强化学习实施困难的人来说,其理论上的吸引力,——如直接优化业务目标的能力——,往往让人充满乐观。
然而,实际操作中的高成本、复杂调试过程和资源需求等等困难,可能会让人倍感挫败。
没有评论:
发表评论