追求模型效率极限，或是中国大模型的商业化答案 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

追求模型效率极限，或是中国大模型的商业化答案

乌鸦智能说

2024-12-31

0 评论 2305 浏览 2 收藏

B端产品经理需要进行售前演示、方案定制、合同签订等，而C端产品经理需要进行活动策划、内容运营、用户激励等

“中国大模型商业化之路，效率驱动新篇。” 在人工智能领域，中国大模型如何突破困境实现商业化？DeepSeek - v3 模型的出现又带来了哪些启示？

上周末，Deep Seek-v3彻底火了。

很多人都把关注点放到训练成本下降带来的算力需求降低。

但在乌鸦君看来，这事最重要的意义并不在于算力多少，而是印证了一件事：

中国厂商有能力去探索模型效率的极限能力。

这代表着另一种商业可能性。

当中国大模型在训练层面临技术封锁，不设预算上限的情况下去做突破性研究，变成一件极为困难的事情。如果能在好、快、便宜和可靠性之间找出最优解，中国的科技公司便很有机会在AI应用大规模落地的过程中建立良性的商业循环。

过去十年间，中美分别以不同的方式完成了社会经济的数字化，一个靠消费互联网，一个靠SaaS。

如今，这样的故事将在AI领域重演。

B端究竟需要什么样的产品经理？

B端产品经理都是以提升供应侧的工作效率为目的，所以B端需求主要是以业务问题为导向。这个是B端产品比较重要的一点，B端产品是服务于一个主体 ...

美国押注模型能力提升，中国追求模型效率的极限，中美将再次以不同的方式迈向人工智能的时代。

01 算力被“错杀“了？

上周五，算力板块大跌。

起因是幻方量化发了一个新模型，叫Deep Seek-v3。这个模型的性能接近GPT-4o和Claude-3.5-Sonnet等闭源模型，但训练成本却只有同性能模型的十分之一。

据说，Deep Seek-v3大模型只用了2048张H800显卡，2个月不到时间训练完毕，计算预算只有不到600万美元。而Llama 3.1 405B使用1.6万H100训练了80天。

DeepSeek V3的出现，让很多人出现了一个疑问——算力需求是不是被高估了？其实并非如此。

第一，很多人对DeepSeek V3的训练成本存在误解。

作为一个后发模型，DeepSeek V3可以避开前人走的坑，或者用更高效方式避坑，也就是“站在巨人的肩膀上”。

这就好比走迷宫，有人花了很大精力走出迷宫。知道路线后，后面的人走出迷宫的时间就大大缩短了。

考虑到算法进步、算力通缩等因素，模型训练成本本身也会随着时间推移而下降。根据ARK的研究报告，大模型的训练成本每年下降75%，推理成本每年下降86%。

再者说，2048块H800也不是DeepSeek V3全部训练算力投入。

上述成本仅包括DeepSeek-V3 的正式训练，既不包括DeepSeek R1模型生成的高质量数据消耗的算力，也不包括模型架构的探索调试阶段消耗的算力。

比如，后训练的时候，DeepSeek直接把一个叫R1的模型，它的推理能力蒸馏到了V3模型上，这样后训练部分就基本没有成本。

第二，算力投入没有下降，而是投入方向变了。

过去，预训练是提升模型智能的主要路径，算力主要被用在了卷数据量、卷参数。

但到了现在，单纯卷规模的性价比越来越低，算力就被花到了其他更有性价比的地方，比如卷数据质量，卷新的Scaling因子（RL、测试时间计算等）。

就拿合成数据来说，根据“海外独角兽”测算，像GPT-4， Claude-3.5 水平的模型，想要其大幅提升推理能力，需要合成 1-10T 量级的高质量推理数据，对应的成本大致需要6-60亿美金。

无论是合成数据，还是测试时间计算，哪一种方式都是用AI无限的计算能力来补足它数据利用效率不够的短板。

也就是说，所谓的算力投入并没有变小，只是算力投入的方向有所变化。

第三，从绝对值看，科技巨头们在算力上的投入没有减少，反而还在大大增加。

根据国外网站LessWrong估算，科技巨头的算力明年将继续大幅增长。即使增长幅度最少的谷歌，算力规模也至少实现了翻倍：微软有75万-90万块等效H100，明年预计达到250万-310万；谷歌有100万-150万块等效H100，明年预计达到350万-420万；Meta有55万-65万块等效H100，明年预计达到190万-250万；亚马逊有25万-40万块等效H100，明年预计达到130万-160万；xAI有10万块等效H100，明年预计达到55万-100万；

国内同样延续这种趋势。根据浙商证券研报，字节跳动2025年资本开始将高达1600亿元，是2024年资本开支的一倍，其中约900亿元用于AI算力的采购。

科技大厂坚决投资算力的逻辑也很简单。新模型的训练需要更多算力，而AI应用的繁荣不仅带来了更多的算力需求，也让算力的投资回报率更为明确。

02 找到中国大模型的商业化答案

DeepSeek-V3这事的最大意义在于，证明了一件事：

即便不是超级大厂、没有10万张GPU的集群，也可以通过工程创新的方式，训练出足以媲美顶尖模型的成果。

这背后的逻辑是，除了堆先进算力外，更灵活、更高效地使用算力将变得越来越关键。之前，李开复一直在表达一个观点：

中国做AI的优势从来不是在不设预算上限的情况下去做突破性研究，而是在好、快、便宜和可靠性之间找出最优解。

在相当长时间里，国内大模型一直处于很尴尬的处境，训练阶段不仅被技术封锁，还容易被海外开源降维打击。但随着模型走到应用阶段，这一局面可能将发生改变。

相比训练的技术封锁，推理是很难封锁的。

原因在于，训练阶段能不能成，标准很单一。应用生态能否跑通，取决于每个国家的成本结构、商业模式、经济模型、产品供给能力，大家各有不同，是个复杂的商业问题。

固然，中国买不到最新的芯片，单位Flops的推理成本永远比海外高，但这也倒逼中国infra出现了各种“工程式创新”，去探索更高效的算力优化方式。

至少从目前看，国内推理优化进展比大家想象要快。一旦算力优化这事跑通，国内大模型在商业层面建立良性循环也不是没有可能。

也就是说，中美未来AI将是两个完全不同的故事：美国押注模型能力提升，中国追求模型效率的极限。

这就很像当年互联网所发生的故事。过去十年，中国和美国在互联网领域讲了两个完全不同的故事：硅谷加倍投入企业软件，而中国则将赌注押在消费者应用上。

自谷歌和Meta后，美国科技业几乎放弃了在消费互联网上再造流量入口的尝试，转而选择全面拥抱SaaS。软件也完美接力上一个十年中的消费移动应用，成为新十年的主流投资趋势，也跑出了很多优秀公司。

而中国在消费互联网展现了非凡的生命力，字节跳动把短视频生意做到了全世界，美团把本地生活做成了一个千亿美元的生意，而拼多多也成长为阿里、亚马逊一外的电商新一极。

在GPT横空出世之后，美国SaaS公司率先受益，纷纷开始向客户提供AI功能，通过之前建立的客户基础和产品场景直接产生商业回报，大大提升了在AI上创新投入的回报确定性。而中国的AI应用却因为缺乏场景和商业模式而进展缓慢。

随着AI应用的逐渐落地，模型效率将会成为打通中国大模型产业商业循环的一把“钥匙”。

文/林白

本文由人人都是产品经理作者【林白】，微信公众号：【乌鸦智能说】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

乌鸦智能说

人工智能新时代的商业智库和价值灯塔

66篇作品 203361总阅读量

泛娱乐生态的用户运营应该怎么做

11-242684 浏览

泛娱乐生态的用户运营应该怎么做

Sam Altman最新透露：OpenAI未来的计划

06-029125 浏览

Sam Altman最新透露：OpenAI未来的计划

成功B端产品经理的年终总结秘诀：掌握这几个技巧！

刚刚

家里的电视，从老人到小孩都玩不明白

02-129075 浏览

家里的电视，从老人到小孩都玩不明白

如何靠土味音乐轻松变现？

01-136396 浏览

如何靠土味音乐轻松变现？

公开课 | 如何让 AI 产出高质量、高可用的内容？

09-064221 浏览

公开课 | 如何让 AI 产出高质量、高可用的内容？

评论

目前还没评论，等你发挥！

B端产品经理面试，都需要注意那些细节（业务篇）

13601人已学习14篇文章

企业架构详解

企业架构可以辅助企业完成业务及IT战略规划，还是企业信息化规划的核心，也有助于个人职业的健康长远发展。本专题的文章分享了企业架构详解。

14158人已学习13篇文章

如何做用户运营策略？

本专题的文章分析了用户运营策略的案例，为如何做用户运营策略提供了思路。

12981人已学习13篇文章

如何做好数据异常分析？

对数据进行监控，分析异常数据，是数据分析常见的工作内容。本专题的文章分享了如何做好数据异常分析。

39750人已学习26篇文章

语音交互设计怎么做？

近年来“物联网”的势头正足，5G网络宣告展开，未来的浪潮中一定会有“语音交互产品”的一席之地。

32188人已学习19篇文章

电商购物车产品设计指南

一个合格的购物车是怎么设计出来的？

36729人已学习27篇文章

玩转ChapGPT攻略

作为AIGC的代表性应用之一，ChatGPT仅仅只用了2个月的时间就已经突破了1亿用户。