从训练 Scaling 到推理 Scaling，算力竞赛仍将继续

　　从训练 Scaling 到推理 Scaling，算力竞赛仍将继续
　　在多位大模型研究者看来，o1 最重要的变化是展现出了一种大幅提升大模型能力的新路径。
　　原来的 Scaling Laws 意味着，用更多数据和算力训练出参数更大的模型，性能就会更好。
　　而如下图， o1 展现出，让模型花更多时间、更多算力回答问题（test-time compute），性能也会持续提升。英伟达资深 AI 科学家 Jim Fan 在社交媒体上说，这可能是自 2022 年 DeepMind 提出 Chinchill Scaling Laws（原版 Scaling Laws 上的一个优化）以来，大模型研究中最重要的一张图。

从训练 Scaling 到推理 Scaling，算力竞赛仍将继续
　　Jim Fan 还提出了大模型未来演进的一种可能：未来的模型可能将推理与知识分离，有小的 “推理核心”，同时也用大量参数来记忆事实（知识），以便在琐事问答等测试中表现出色。
　　OpenAI 也在介绍 o1 的文章中特意提到，他们会继续开发 GPT 系列的模型。这可能预示，OpenAI 会把 o1 中使用的方法引入到下一代 GPT 模型中。
　　不管是 o1 成为新的主流方法，还是 o1 与 GPT 系列结合，演化出下一代大模型，算力需求应该都会进一步提升。
　　OpenAI 未公开 o1 系列的推理成本，但从 o1 模型回答问题的时长和 OpenAI 对 o1 的使用限制可以推测，o1 相比 GPT 系列需要庞大得多的推理算力资源。
　　每月花 20 美元的 ChatGPT Plus 付费用户，目前每周只能用 30 次 o1-preview 和 50 次 o1-mini。而目前 GPT-4o 的限制是每周 4480 次（每 3 小时 80 次），是 o1-mini 的 90 倍，o1-preview 的 150 倍。
　　o1-preview 回答问题的时间从 GPT 系列模型的秒级增加到了数十秒、甚至更久。它回答问题时处理的文本量也大幅提升。以文中展示 “思维链” 过程时列举的编程问题为例，o1 解答时，加上思维链，处理的字符有 6632 个，是 GPT-4o 的 4.2 倍。更长的计算时间和更长的输出都意味着更高的算力成本。
　　o1 对 AI 前景和算力消费的刺激很快反映在资本市场。自本周初有媒体报道 OpenAI 即将发布新模型后，英伟达股价累计回升 10%，微软也一起上涨。
　　对于那些不确定技术演进方向或者一度放缓研究基础模型的公司，现在又有新工作可以做，有新方向可以卷了。o1 的发布大概率意味着，在 “推理模型” 上，竞争差距再一次拉开，一轮加速追赶和投入即将发生。
　　“是时候正经干点正事了，要不真的就不在游戏里了。” 一位中国大模型研究者说。

链接了

从训练 Scaling 到推理 Scaling，算力竞赛仍将继续

30天最热点击文章

随便看看

链接了

从训练 Scaling 到推理 Scaling，算力竞赛仍将继续

清华团队开发人工智能算法SPACE用于空间转录组数据分析

百度推出“AI搜”升级搜索体验，加速布局AI搜索领域

清华团队合作发表人工智能细胞大模型

深度学习与神经网络有什么区别？

30天最热点击文章

随便看看