数字货币: 质疑推理模型根本不会推理？！苹果最新论文的问题

2025年6月10日星期二

在experimental setup部分，明确写了maximum budget tokens最大只有64k

很明显，这个token budget是包括thinking tokens的，

而在<think> </think> tag 中，需要详细说明移动步骤，如下图所示，我画红圈的地方，

众所周知，在Tower of Hanoi中，这个步骤随disk数量增加，是指数级别增长的，

即2^N - 1，其中N是disk数量

意味着disk增加到一定数量，tokens会直接爆炸，超出限额。

所以就解释为何超过特定disks数量后，直接崩溃collapse：

（下图中，我画五角星⭐️的地方）

这篇paper我其实第一时间就刷到了，上面的黄色和红色标注，就是第一次读的时候画上的，

但是读完很明显就发现大概率水paper而已，只是署名单位挂在apple，所以本以为不会有太多讨论，

结果这两天直接让自媒体圈给震惊麻了。。

其实Reasoning model自2024年下半年OpenAI 推出o1系列模型以来，到DeepSeek R1系列模型，再到现在各个大厂的推理模型，其实已经是被各个大厂、无数top researchers（注意是top）以及广大用户反复检验过的新的范式，

——Test time scaling确实能scaling

水paper当然是人之常情，无可厚非，但最好要顺应时代进程，把各种reinforcement learning 算法认真看看，再改改loss function，弄几个新的排列组合，趁着这波热潮分一杯羹，不比啥都强，别老想着搞个大新闻。。

数字货币