在experimental setup部分,明确写了maximum budget tokens最大只有64k
很明显,这个token budget是包括thinking tokens的,
而在<think> </think> tag 中,需要详细说明移动步骤,如下图所示,我画红圈的地方,
众所周知,在Tower of Hanoi中,这个步骤随disk数量增加,是指数级别增长的,
即2^N - 1,其中N是disk数量
意味着disk增加到一定数量,tokens会直接爆炸,超出限额。
所以就解释为何超过特定disks数量后,直接崩溃collapse:
(下图中,我画五角星⭐️的地方)
这篇paper我其实第一时间就刷到了,上面的黄色和红色标注 ,就是第一次读的时候画上的,
但是读完很明显就发现大概率水paper而已,只是署名单位挂在apple,所以本以为不会有太多讨论,
结果这两天直接让自媒体圈给震惊麻了。。
其实Reasoning model自2024年下半年OpenAI 推出o1系列模型以来,到DeepSeek R1系列模型,再到现在各个大厂的推理模型,其实已经是被各个大厂、无数top researchers(注意是top)以及广大用户反复检验过的新的范式,
——Test time scaling确实能scaling
水paper当然是人之常情,无可厚非,但最好要顺应时代进程,把各种reinforcement learning 算法认真看看,再改改loss function,弄几个新的排列组合,趁着这波热潮分一杯羹,不比啥都强,别老想着搞个大新闻。。
没有评论:
发表评论