2025年3月5日星期三

2024图灵奖,颁给强化学习之父 Richard Sutton及其导师!

前不久很幸运刚线下听了sutton老爷子的讲座,作为强化学习领域的祖师爷,图灵奖属实是实至名归了。


讲座中他还不忘应景地讲自己对AGI的预测,以及智能本质的定义。与现在比较流行的ilya观点"压缩即智能"不同,他对intelligence的定义是:


——智能是不断调整行为模式来获取目标的能力


其实做reinforcement learning的人很明显就能判断出来,sutton给的定义还是比较接近强化学习中智能体(Agent) 的概念。


(这里必须放一张sutton的Introduction to Reinforcement Learning教科书中的经典图)

强化学习的本质是Agent通过与环境交互,不断优化策略以最大化累积奖励。这一过程直接体现了sutton提到的智能三个核心特征:


一是目标导向:智能体的终极目标是最大化长期奖励(如赢得游戏、完成复杂任务)。


二是动态调整:通过试错(Trial-and-Error),智能体学习哪些行为能带来更高奖励,并调整策略(Policy)以趋近最优行为模式。


三是反馈驱动:奖励信号(Reward)是智能体调整行为的唯一指导。


这种认识偏向于Agent behavior,其实从OpenAI o1系列到DeepSeek R1系列推理模型的火热,已经证实了强化学习rl在大语言模型llm后训练中获得智能的重要作用。


强化学习rl对llm推理训练取得了非常好的效果。当然首先很大一部分原因是因为DeepSeek 在训练R1-zero的时候,强化学习是在v3基座上进行的。DeepSeek-v3作为强大的基座模型,语言理解和生成能力极强。


于是,用强大的模型基座能解决RL训练采样效率低的问题,(有点类似于最早alphago,有pre-training的先验知识),基座模型v3生成质量足够高的思维链,避免我们在强化训练中常见的探索维度爆炸但rewards 信号没办法稳定上升并收敛的问题。


甚至,推理模型有了显著的self-evolution, 即随着test-time computation的增加,产生了反思reflection、探索解决问题的替代方法,以及经常被提到的"Aha Moment"等。


而这些产生的"intelligence"智能行为,——正如sutton对智能本质的定义那样——,都是大语言模型作为RL Agent与强化学习环境相互作用的Agent behavior结果。


sutton另一个为人熟知的是一篇2019年的总结文章,被当做人工智能领域的"圣经",名字是"苦涩的教训":The bitter lesson。


篇幅很短,推荐大家都仔细读读,链接如下:


The Bitter Lesson


里面很重要的观点直接深远地影响了采用transformer架构的GPT等大语言模型的发展,包括大家熟知的scaling law等,我简单总结一下,即:


1. AI的进展主要依赖于利用computational power(计算能力)和data scale(数据规模)的general learning methods(通用学习方法),而不是试图将human domain knowledge(人类领域的知识)直接directly encoding into AI systems(编码到AI系统中)。 


2. 历史上,AI研究者常常尝试通过handcrafted rules(手工规则)来提升系统性能。虽然这些方法在短期内可能有效,但从长期来看,它们往往会进入平台期,最终被systems relying on more computational resources(依赖更多计算资源的系统)所超越。 


3. search and learning(搜索和学习)是两种能够有效scale(扩展)的方法,它们随着increased computational power(计算能力的增强)而持续改进。

没有评论:

发表评论

时间在哪里,收益就在哪里

纸上得来终觉浅,绝知此事要躬行,期待我们躬身入局,愿每位老铁都能在Web3中收获满满空投大毛哦! 前言-------------------------------------- Web3撸空投是投入产出比较高的一种方式。它主打一个以小搏大,风险小,收益高,花少量的 gas ...