数字货币: 大模型到底为什么很重要？！

2025年2月14日星期五

大模型到底为什么很重要？！

说点实际的。

你知道上一波人工智能浪潮结束后到ChatGPT出现前夜这段时间，漫漫长夜有多难熬吗？

特别是2022年初开始的互联网寒冬，网上一片哀嚎，连硅谷大厂很多实习生都拿不到return offer，在linked in和X上，每天有太多这种新闻出来，你现在去翻历史记录，大概率还能翻出来很多。

他们在社交网络上唉声叹气，痛诉相对于前几届学长学姐，为何会命运如此不公。

计算机专业突然遇冷了吗？

meta的股价到2022年底甚至一度跌到80多块，微软股价最低跌到200多，其他大厂很多也是一路下跌，市场对互联网公司普遍情绪极度悲观。国内的大厂就更不用说了，整顿资本无序扩张以来，成果显著，到现在都还没完全地缓过劲来。

GPT3问世后，其实已经掀起了很大波澜了，但仍没有实现质变。不过Openai的ilya等在论文中，正式定义了GPT-3训练的scaling law 曲线，明确了模型性能（如损失函数）与模型参数规模、训练数据量及计算资源之间的幂律关系，将其确立为大语言模型扩展的核心指导原则，引领大模型发展。

于是在2022年底chatgpt问世以来，一度将互联网大厂拉回了投资热点中来，给很多人带来了一些希望。特别是在2023年年中之后，很多大厂经过22年底的判断和23年初的立项已经确定要all in大模型的战略路线了，有不少项目组干脆直接切到了这个赛道，再加上一些独角兽公司，所以那段时间招人的hc明显增加了，——特别是相对于2022年初以来的互联网寒冬。

国外最明显的例子就是Meta，通过llama开源模型，成功挤进了OpenAI、Google的大模型巨头圈，建立了最广泛的开发者圈子，不止是llama.cpp 等各种量化语言模型，还有llava 等 vision language模型，以及涉及到physical intelligence 的VLA模型，等等等等。

Meta的股价一路狂飙，势头正猛，现在已经到了734了，而前两年最低点仅仅87块。。

国内在2024年大模型领域更是集中爆发，Qwen, DeepSeek, Kimi, Minimax，开源浪潮一波接一波，DeepSeek月活用户在2月1日就突破3000万，模型开源并免费让全世界用户用上了o1级别的推理模型，让很多之前对大模型不太熟悉或者不太认可的人，第一次感受到了推理模型的魅力。

用户们看着CoT推理过程，感受到test time scaling生成的高质量结果，大概率是会认可DeepSeek这种世界级sota模型的能力。

特别是这一波DeepSeek 火出圈后，直到今天，恒指上多少中概股被带动大涨，中国的互联网科技公司之前被华尔街严重低估，现在逐渐价值回归，让全世界认识到我们本土科技人才的实力。

随着互联网估值的提高，这些科技大厂们会慢慢从低谷走出来，而不是一味地收缩、裁员、降本增效，想着怎么熬过寒冬了，因为春天似乎大概率来了。大模型门槛高，但大厂不一味收缩算利好了。

这一波科技革命浪潮，硬是在2022年底经过大家的猜测犹豫到接受并迅速All in大模型而开启的，模型性能从"玩具级"到"生产力级"终于产生了质变。

于是，我们能吃上饭，找到还算体面的工，养家糊口，多亏了大模型；用户能吃上科技发展的红利，用上免费的对比o1系列DeepSeek推理模型作为生产工具；投资者买点互联网股票，能回本甚至有了收益，而不是整天眼红纳斯达克，等等等等，这就是最最实际的作用，还有啥能比这更重要吗？！

数字货币

2025年2月14日星期五

大模型到底为什么很重要？！

没有评论:

发表评论

Polkadot 迎来 RWA 新项目 Joinn：当代币化资产开始走向普通用户！