开源需要一个正向循环的开发生态环境,计算机行业是典型案例,开源软件本质上极大地促进了知识共享、协作和创新,也就能吸引更多的大量开发者和用户,这些开发者会进一步贡献开源代码,就会形成良性循环。
大模型时代更是如此,Meta 是最为典型的例子。通过llama系列开源模型,成功挤进了OpenAI、Google的大模型巨头圈,建立了最广泛的开发者圈子,不止是llama.cpp 等各种量化语言模型,还有llava 等 vision language模型,以及涉及到physical intelligence 的VLA模型等等。
开源是后来者居上的最佳路径。后来者,或者说追赶者,包括将来发布的大模型,都应该第一时间赶紧开源,获取最广泛的关注,尽可能吸引更多的开发者加入。如果你不开源,选择敝帚自珍,大概率很快就会被后一波浪花完全掩盖了。
DeepSeek 更是如此,Deepseek是少有的没做过大量推广,通过开源路线胜出的。特别是DeepSeek R1系列开源推理模型的发布,DeepSeek 直接免费让全世界用户用上了o1级别的推理模型,让很多之前对大模型不太熟悉或者不太认可的人,第一次感受到了推理模型的魅力。
真正在开源社区震惊开发者,并火爆出圈的,往往就是这种对新技术的专注力,开源的氛围加上新技术Geek精神,对圈内开发者同行们往往有种特殊的魅力和吸引。
前段时间有一个经典问题,即为什么解读DeekSeek的人比开发DeepSeek的人还要多几百倍?
实质上任何一个大模型的开发都不是空中楼阁,都要建立在公开发表的研究成果和开源社区基础之上。DeepSeek 也不例外,decoder-only transformer 架构,混合专家模型moe,后训练post-training,包括用到的rl等等等等。
比如Transformer是google 在attention is all you need论文中提出来的。Openai的ilya等正式定义了GPT-3训练的scaling law 曲线,明确了模型性能(如损失函数)与模型参数规模、训练数据量及计算资源之间的幂律关系,将其确立为大语言模型扩展的核心指导原则,引领大模型发展。Moe率先在商用开源大模型上验证成功应该是2023年底的mistral 7B。rl在前大模型时代很多领域早就有很大一部分在做研究,很多人想必都读过Sutton的Introduction to Reinforcement Learning。。
前大模型时代的深度学习姑且不论。实际上这个开发链条上的人非常多,这还不算knowledge distillation 更是利用了很多开源/闭源模型。
所以在整个技术演进和开发链条上,实际参与研发的人数非常庞大,这里面一路以来所有参与直接研发和间接研发的人都加起来,真不一定比今天解读deepseek的人少,
——这就是开源社区带来的正向循环,仍在不断促进行业飞速发展。
相比之下,很多传统制造业比如机械加工,或者天坑专业化学材料等等,向来是以闭源闻名的,这些行业经常封闭自守、敝帚自珍,压根就没法形成任何正向循环。
就算极个别公司选择了开源,也只会像羊入狼群虎口,很快会被吃干抹净,在极低的利润率和内卷恶劣的环境下,这种恶性循环不断加强,很难形成计算机行业那样的正向循环开源氛围,——于是给这些行业内年轻人们留下的,往往只有三大浪漫。。
没有评论:
发表评论