2025年6月10日星期二

质疑推理模型根本不会推理?!苹果最新论文的问题

在experimental setup部分,明确写了maximum budget tokens最大只有64k


图片

很明显,这个token budget是包括thinking tokens的,


而在<think> </think> tag 中,需要详细说明移动步骤,如下图所示,我画红圈的地方,


图片


众所周知,在Tower of Hanoi中,这个步骤随disk数量增加,是指数级别增长的,


即2^N - 1,其中N是disk数量


意味着disk增加到一定数量,tokens会直接爆炸,超出限额。


所以就解释为何超过特定disks数量后,直接崩溃collapse:


(下图中,我画五角星⭐️的地方)


图片


这篇paper我其实第一时间就刷到了,上面的黄色和红色标注 ,就是第一次读的时候画上的,


但是读完很明显就发现大概率水paper而已,只是署名单位挂在apple,所以本以为不会有太多讨论,


结果这两天直接让自媒体圈给震惊麻了。。


其实Reasoning model自2024年下半年OpenAI 推出o1系列模型以来,到DeepSeek R1系列模型,再到现在各个大厂的推理模型,其实已经是被各个大厂、无数top researchers(注意是top)以及广大用户反复检验过的新的范式,


——Test time scaling确实能scaling


水paper当然是人之常情,无可厚非,但最好要顺应时代进程,把各种reinforcement learning 算法认真看看,再改改loss function,弄几个新的排列组合,趁着这波热潮分一杯羹,不比啥都强,别老想着搞个大新闻。。


没有评论:

发表评论

刷分空投要求再破新高,卷上天了

纸上得来终觉浅,绝知此事要躬行,期待我们躬身入局,愿每位老铁都能在Web3中收获满满空投大毛哦! 前言-------------------------------------- Web3撸空投是投入产出比较高的一种方式。它主打一个以小搏大,风险小,收益高,花少量的 gas ...