从烧钱到落地，大模型到了“验收”时刻

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从烧钱到落地，大模型到了“验收”时刻

DoNews

2025-01-03

0 评论 1166 浏览 0 收藏

15 分钟

在人工智能的竞技场上，大模型技术正经历着从烧钱竞赛到实际落地的转变。文章还分析了大模型技术在商业化应用中的挑战与机遇，为我们揭示了AI技术如何从概念走向现实，影响着我们的未来。让我们一起探索这场“AI大模型+”的革命，了解它如何重塑行业格局。

继通用大模型的价格以厘计算之后，字节再次将多模态大模型带入“厘时代”。

在12月18日举办的火山引擎 Force 大会上，字节跳动正式发布发布豆包·视觉理解模型。同时公布其售价为千tokens输入0.003元，相当于一元钱就可处理284张720P的图片。

对比claude 3.5 Sonnet的0.021元/千tokens，qwen-vl-max的0.02元/千tokens，GPT-4o的0.0175元/千tokens，豆包视觉理解模型比行业价格便宜85％。

而在此之前的5月份，字节跳动发布的豆包大模型，其主力模型在企业市场的定价为0.0008元/千Tokens，0.8厘能处理1500多个汉字，比行业便宜99.3%，让大模型从以分计价到以厘计价。

这一操作迫使阿里云的三款通义千问主力模型再次降价，最高降幅达90%。百度智能云更是直接宣布，文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费。

不到一年半的时间，字节是如何做到在AI大模型市场后来居上？多模态大模型又发展到了哪一步？未来大模型技术在应用侧的新趋势会是什么？

一、国内第一全球第二，“卷王”豆包后来居上

2023年是国产大模型“大爆发”的一年。

自去年3月起，众多大厂及创新型企业纷纷亮出自研大模型产品：阿里通义千问1.0、腾讯混元、360智脑、华为盘古、科大讯飞星火、商汤日日新、百川大模型以及智谱AI的GLM等，均诞生于这一年。

作为AI起步较晚的选手，字节在去年1月才成立大模型研发团队，8月才发布“云雀”大模型和对外测试AI对话产品“豆包”。

国内大模型发展时间线图源：第一新声

尽管来得晚，但架不住人家涨得快。

据量子位智库数据显示，截至11月底，豆包2024年的累计用户规模已超过1.6亿；11月平均每天有80万新用户下载豆包，单日活跃用户近900万，仅次于OpenAI的ChatGPT，位列全球第二、国内第一。

而今年5月发布的豆包通用大模型，据字节跳动对外公布的数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。

“豆包”能有这样增长，离不开字节这个“卷王”的大力推动。

首先就是卷流量。

据App Growing统计，截至11月15日，Kimi、豆包、星野等国内十款大模型产品，合计已投放超625万条广告，投放金额达15亿元。其中，Kimi和豆包是投放最疯狂的两个产品，分别投放了5.4亿元和4亿元。

图源：App Growing

当下，花钱投流买量是AI产品启动一个最直接快捷的方式。而在各家的投放渠道中，基本都离不开字节的巨量引擎（字节跳动旗下广告投放平台，涵盖今日头条、抖音、西瓜视频等营销资源）。

这使得背靠字节的豆包将流量池的优势发挥到了极致。在抖音上，字节几乎屏蔽了除豆包以外所有AI应用的投放，只留给自家的豆包。尽管重金投流能否换来超级应用无法确定，但至少目前给豆包带来了肉眼可见的用户增长。

其次是卷产品。

从聊天助手、视频工具，到娱乐应用、办公领域，字节陆续推出了十几个 AI 应用，覆盖了几乎所有主要 AI 产品方向。字节今年10月还推出了能与豆包语音对话的 Ola Friend 耳机，近期还在研发 AI 眼镜。

这样饱和式的研发，一方面能让豆包大模型依托诸多AI应用加速迭代，另一方面则是期待AI硬件终端能拓宽豆包大模型使用场景，进而实现整个“豆包+”产业链闭环。

此外，豆包也在卷场景，以期在应用层面多点开花。

据了解，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。而最近3个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有大幅增长。

可以说，丰富的内部生态、持续的资源投入、庞大的优质数据和应用场景，且都全面接入AI并相互打通，这才是豆包能成为行业“卷王”的秘诀。

二、“百模大战”下半场，开始比拼多模态

自 OpenAI 推出 Sora，让“一句话生成视频”变成可能；谷歌发布 Gemini ，可以泛化并无缝地理解、操作和组合不同类型的信息，国内主要公司就开始陆续跟进、布局视频、音乐、语音等多模态 AI 应用。

例如，今年5月开始，生数科技Vidu、快手可灵、字节即梦、智谱清影、商汤Vimi等都相继发布文生视频模型；9月，MiniMax正式发布视频模型video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布MiracleVision大模型完成视频生成能力的升级；到了11月，腾讯混元大模型正式上线视频生成能力，月之暗面旗下Kimi则被爆出正在内测AI视频生成功能“Kimi创作空间”……多模态的“多”正在成为新的发展方向。

通过腾讯元宝APP-AI应用-AI视频即可使用该功能图源：腾讯优图实验室

而此次火山引擎发布的豆包·视觉理解模型，据介绍，主要能力包括：

更强的内容识别能力：不仅可以识别出图像中的物体类别、形状等基本要素，还能理解物体之间的关系、空间布局以及场景的整体含义。
更强的理解和推理能力：不仅能更好地识别内容，还能根据所识别的文字和图像信息进行复杂的逻辑计算。
更细腻的视觉描述能力：可以基于图像信息，更细腻地描述图像呈现的内容，还能进行多种文体的创作。

继 GPT-4 在语言方向的里程碑式突破之后，业界普遍认为“视觉”是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息，未来的大模型也应该充分利用更多种类的感官，以此探索实现 AGI 的路径。

火山引擎总裁谭待也在采访中表示，推出视觉理解模型相当于解锁了一个很大的场景，同过去只有文字对话形式的AI相比，聊天功能与深度推理的、图像视觉理解等能力的融合，能让模型有能力处理好真实世界大量综合性的信息，辅助人类完成一系列复杂工作。

比如，在旅游场景中，帮助游客看外文菜单、讲解照片中建筑的背景知识；在教育场景中，为学生优化作文、科普知识；在办公场景下，除了识别内容，模型还能帮助用户分析图表中的数据关系，处理代码逻辑。

豆包·视觉理解模型教育场景应用案例图源：火山引擎 Force 大会

此外，火山引擎除了推出视觉理解模型之外，还发布、升级了多个其他模型。比如，豆包通用模型pro已全面对齐GPT-4o；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；文生图模型2.1版本接入即梦AI和豆包App……

可以看出，尽管相比于市场同类产品，豆包系列大模型发布的时间并不算早，但一直保持着较快速度的更新，并且将最新能力通过即梦AI、豆包App等应用，迅速开放给了普通用户使用。

而当下，AI 市场关注的重心正逐渐从“大模型”转变到“大模型+”。除了常规的 AI 文本对话类应用，多模态的“多”正在成为新的方向。

三、“应用之战”打响，大模型到了该“验收”的时候

在2024世界人工智能大会上，百度创始人李彦宏在演讲中提到，“2023年国内出现了百模大战，其实造成了社会资源的巨大浪费，尤其是算力的浪费。”的确，无论是技术上的研发成本，还是应用上的运行成本，大模型的成长每一步都少不了真金白银的支持。

在行业回归理性的今天，越来越多的AI企业意识到卷参数量、卷Token数、卷集群规模、卷价格，其实都意义不大，大模型的商业化落地才是最需要关注的问题。

而按终端用户类型，AI大模型的商业模式可分为to C、to B。

lto C：即面向个人消费者，包括免费和付费订阅模式。免费模式如腾讯元宝、百度的文心一言（3.5版本）；付费订阅模式如百度的文心一言（4.0版本）、OpenAI的ChatGPT（4.0版本）；
lto B：即面向企业，包括API调用授权、SaaS模式。API调用授权模式中，企业客户可在自己的应用程序或服务中集成AI功能，通常基于调用次数或数据量来计费，如阿里通义千问、智谱AI；SaaS模式中，大模型企业为客户提供软件服务，客户无需安装和维护软件，如Google Cloud AI。在实际应用中，大模型企业通常混合使用多种商业模式。

当下多模态大模型竞争火热，将带动诸多行业重塑生产环节，势必会在以下几个领域引发新一轮的升级与角逐：

影音创作：当大模型由单模态生成转向多模态生成，AIGC应用降低了专业创作门槛，这将改变影音传媒行业的生产模式，塑造全新内容生产范式，实现创作效率提升、创作空间拓展及作品质量提升的目标。

情绪智能：基于最新的AI模型如GPT-4o和Gemini 1.5 Pro，未来AI陪伴将通过流式语音识别、多模态AI和情感计算等技术极大地提升互动体验。这意味着多模态大模型将赋予机器情感价值，并通过深度分析用户的情感和行为，满足用户的多元化陪伴诉求。

工业智造：未来多模态大模型有望与当前普遍使用的专用小模型互补融合，深度赋能工业制造的各个环节，并随着场景数据的整合和积累，进一步升级感知和理解能力，以满足生产制造中的个性化需求，从而推动工业产业变革。

总之，现如今AI领域的竞争核心，已经从大模型的“有无之战”变成了“应用之战”。在这个阶段里，比拼的不再是宏观概念，而是落地能力和商业化的进展。

随着国内大模型持续迭代与升级，叠加国内GPU供应问题逐步缓解、政策牵引等，国内大模型训推算力需求有望逐步释放，这不仅将为大模型的落地应用进一步提速，也将给AI时代带来新的行业机遇。

撰文 | 文林编辑 | 杨博丞

本文由人人都是产品经理作者【DoNews】，微信公众号：【DoNews】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App