2025年10月9日星期四

OpenAI 近期狂烧钱搞 AI 基建,与英伟达、AMD 和甲骨文合作,背后有哪些战略考量?

其实Greg Brockman(OpenAI President & Co-Founder)前两天在X上已经很明确说出原因了。
OpenAI内部在模型训练和推出新功能的时候,明显遇到了算力瓶颈compute bottleneck,大模型能力可以继续通过加大算力的方式进一步指数增长scaling up。
老董叔当时简单总结为,OpenAI继续坚定沿着compute scaling路线加大算力投入。
图片
OpenAI遇到的算力瓶颈,大概率远比想象中更严峻,除了最近大家常提到的OpenAI野心是大模型整个生态,其实在关键核心模型GPT-5版本的发布中,可以很明显看出来:
图像
(经过估算)大概率GPT-5训练的training compute是少于GPT-4.5的。

Epoch AI文章对此的分析主要是因为OpenAI一度将重点从 pre-training scaling 转向了 post-training scaling,造成了GPT 5的 training compute 少于GPT 4.5。

至于为何OpenAI要重点关注在scaling post-training,除了边际收益更高之外,主要是OpenAI一直面临Anthropic系列模型在coding任务上的领先,以及市场对GPT-5发布时间预期的压力,使得OpenAI在时间特别是计算资源严重受限的客观条件限制之下,无法轻易在 GPT-4.5 这个规模的预训练base model上进行post-training scaling,

因此OpenAI选择在较小模型上尽可能最大化post-training效果,来快速推出了GPT-5。

当然,OpenAI将来会将高算力同时用于更大base model的 pretraining scaling & post-training scaling,于是可以预期GPT-6计算量,必然会大幅超过GPT-4.5和GPT-5。

所以和Nvidia、AMD等合作全力搞AI infra基建也是情理之中,不仅是现实遇到了scaling的问题,而且符合OpenAI一直以来自身的信仰。

——这很难得,尤其是在scaling law这篇paper(Scaling Laws for Neural Language Models 重点介绍了计算量compute、训练数据dataset size、参数量parameters这三个scaling对象)已经发布五年有余、越来越饱受质疑的今天。

没有评论:

发表评论

OpenAI 近期狂烧钱搞 AI 基建,与英伟达、AMD 和甲骨文合作,背后有哪些战略考量?

其实Greg Brockman(OpenAI President & Co-Founder)前两天在X上已经很明确说出原因了。 OpenAI内部在模型训练和推出新功能的时候,明显遇到了算力瓶颈compute bottleneck,大模型能力可以继续通过加大算力的方式进...