Epoch AI文章对此的分析主要是因为OpenAI一度将重点从 pre-training scaling 转向了 post-training scaling,造成了GPT 5的 training compute 少于GPT 4.5。
至于为何OpenAI要重点关注在scaling post-training,除了边际收益更高之外,主要是OpenAI一直面临Anthropic系列模型在coding任务上的领先,以及市场对GPT-5发布时间预期的压力,使得OpenAI在时间特别是计算资源严重受限的客观条件限制之下,无法轻易在 GPT-4.5 这个规模的预训练base model上进行post-training scaling,
因此OpenAI选择在较小模型上尽可能最大化post-training效果,来快速推出了GPT-5。
当然,OpenAI将来会将高算力同时用于更大base model的 pretraining scaling & post-training scaling,于是可以预期GPT-6计算量,必然会大幅超过GPT-4.5和GPT-5。
所以和Nvidia、AMD等合作全力搞AI infra基建也是情理之中,不仅是现实遇到了scaling的问题,而且符合OpenAI一直以来自身的信仰。
——这很难得,尤其是在scaling law这篇paper(Scaling Laws for Neural Language Models 重点介绍了计算量compute、训练数据dataset size、参数量parameters这三个scaling对象)已经发布五年有余、越来越饱受质疑的今天。
没有评论:
发表评论