2025年2月14日星期五

大模型到底为什么很重要?!

说点实际的。


你知道上一波人工智能浪潮结束后到ChatGPT出现前夜这段时间,漫漫长夜有多难熬吗?


特别是2022年初开始的互联网寒冬,网上一片哀嚎,连硅谷大厂很多实习生都拿不到return offer,在linked in和X上,每天有太多这种新闻出来,你现在去翻历史记录,大概率还能翻出来很多。


他们在社交网络上唉声叹气,痛诉相对于前几届学长学姐,为何会命运如此不公。


计算机专业突然遇冷了吗?


meta的股价到2022年底甚至一度跌到80多块,微软股价最低跌到200多,其他大厂很多也是一路下跌,市场对互联网公司普遍情绪极度悲观。国内的大厂就更不用说了,整顿资本无序扩张以来,成果显著,到现在都还没完全地缓过劲来。


GPT3问世后,其实已经掀起了很大波澜了,但仍没有实现质变。不过Openai的ilya等在论文中,正式定义了GPT-3训练的scaling law 曲线,明确了模型性能(如损失函数)与模型参数规模、训练数据量及计算资源之间的幂律关系,将其确立为大语言模型扩展的核心指导原则,引领大模型发展。


于是在2022年底chatgpt问世以来,一度将互联网大厂拉回了投资热点中来,给很多人带来了一些希望。特别是在2023年年中之后,很多大厂经过22年底的判断和23年初的立项已经确定要all in大模型的战略路线了,有不少项目组干脆直接切到了这个赛道,再加上一些独角兽公司,所以那段时间招人的hc明显增加了,——特别是相对于2022年初以来的互联网寒冬。


国外最明显的例子就是Meta,通过llama开源模型,成功挤进了OpenAI、Google的大模型巨头圈,建立了最广泛的开发者圈子,不止是llama.cpp 等各种量化语言模型,还有llava 等 vision language模型,以及涉及到physical intelligence 的VLA模型,等等等等。


Meta的股价一路狂飙,势头正猛,现在已经到了734了,而前两年最低点仅仅87块。。



国内在2024年大模型领域更是集中爆发,Qwen, DeepSeek, Kimi, Minimax,开源浪潮一波接一波,DeepSeek月活用户在2月1日就突破3000万,模型开源并免费让全世界用户用上了o1级别的推理模型,让很多之前对大模型不太熟悉或者不太认可的人,第一次感受到了推理模型的魅力。


用户们看着CoT推理过程,感受到test time scaling生成的高质量结果,大概率是会认可DeepSeek这种世界级sota模型的能力。


特别是这一波DeepSeek 火出圈后,直到今天,恒指上多少中概股被带动大涨,中国的互联网科技公司之前被华尔街严重低估,现在逐渐价值回归,让全世界认识到我们本土科技人才的实力。


随着互联网估值的提高,这些科技大厂们会慢慢从低谷走出来,而不是一味地收缩、裁员、降本增效,想着怎么熬过寒冬了,因为春天似乎大概率来了。大模型门槛高,但大厂不一味收缩算利好了。


这一波科技革命浪潮,硬是在2022年底经过大家的猜测犹豫到接受并迅速All in大模型而开启的,模型性能从"玩具级"到"生产力级"终于产生了质变。


于是,我们能吃上饭,找到还算体面的工,养家糊口,多亏了大模型;用户能吃上科技发展的红利,用上免费的对比o1系列DeepSeek推理模型作为生产工具;投资者买点互联网股票,能回本甚至有了收益,而不是整天眼红纳斯达克,等等等等,这就是最最实际的作用,还有啥能比这更重要吗?!


没有评论:

发表评论

下周两天3空投,一鱼3吃要如何准备

纸上得来终觉浅,绝知此事要躬行,期待我们躬身入局,愿每位老铁都能在Web3中收获满满空投大毛哦! 前言-------------------------------------- Web3撸空投是投入产出比较高的一种方式。它主打一个以小搏大,风险小,收益高,花少量的 gas ...