从烧钱到落地,大模型到了“验收”时刻
在人工智能的竞技场上,大模型技术正经历着从烧钱竞赛到实际落地的转变。文章还分析了大模型技术在商业化应用中的挑战与机遇,为我们揭示了AI技术如何从概念走向现实,影响着我们的未来。让我们一起探索这场“AI大模型+”的革命,了解它如何重塑行业格局。
继通用大模型的价格以厘计算之后,字节再次将多模态大模型带入“厘时代”。
在12月18日举办的火山引擎 Force 大会上,字节跳动正式发布发布豆包·视觉理解模型。同时公布其售价为千tokens输入0.003元,相当于一元钱就可处理284张720P的图片。
对比claude 3.5 Sonnet的0.021元/千tokens,qwen-vl-max的0.02元/千tokens,GPT-4o的0.0175元/千tokens,豆包视觉理解模型比行业价格便宜85%。
而在此之前的5月份,字节跳动发布的豆包大模型,其主力模型在企业市场的定价为0.0008元/千Tokens,0.8厘能处理1500多个汉字,比行业便宜99.3%,让大模型从以分计价到以厘计价。
这一操作迫使阿里云的三款通义千问主力模型再次降价,最高降幅达90%。百度智能云更是直接宣布,文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费。
不到一年半的时间,字节是如何做到在AI大模型市场后来居上?多模态大模型又发展到了哪一步?未来大模型技术在应用侧的新趋势会是什么?
一、国内第一全球第二,“卷王”豆包后来居上
2023年是国产大模型“大爆发”的一年。
自去年3月起,众多大厂及创新型企业纷纷亮出自研大模型产品:阿里通义千问1.0、腾讯混元、360智脑、华为盘古、科大讯飞星火、商汤日日新、百川大模型以及智谱AI的GLM等,均诞生于这一年。
作为AI起步较晚的选手,字节在去年1月才成立大模型研发团队,8月才发布“云雀”大模型和对外测试AI对话产品“豆包”。
国内大模型发展时间线 图源:第一新声
尽管来得晚,但架不住人家涨得快。
据量子位智库数据显示,截至11月底,豆包2024年的累计用户规模已超过1.6亿;11月平均每天有80万新用户下载豆包,单日活跃用户近900万,仅次于OpenAI的ChatGPT,位列全球第二、国内第一。
而今年5月发布的豆包通用大模型,据字节跳动对外公布的数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。
“豆包”能有这样增长,离不开字节这个“卷王”的大力推动。
首先就是卷流量。
据App Growing统计,截至11月15日,Kimi、豆包、星野等国内十款大模型产品,合计已投放超625万条广告,投放金额达15亿元。其中,Kimi和豆包是投放最疯狂的两个产品,分别投放了5.4亿元和4亿元。
图源:App Growing
当下,花钱投流买量是AI产品启动一个最直接快捷的方式。而在各家的投放渠道中,基本都离不开字节的巨量引擎(字节跳动旗下广告投放平台,涵盖今日头条、抖音、西瓜视频等营销资源)。
这使得背靠字节的豆包将流量池的优势发挥到了极致。在抖音上,字节几乎屏蔽了除豆包以外所有AI应用的投放,只留给自家的豆包。尽管重金投流能否换来超级应用无法确定,但至少目前给豆包带来了肉眼可见的用户增长。
其次是卷产品。
从聊天助手、视频工具,到娱乐应用、办公领域,字节陆续推出了十几个 AI 应用,覆盖了几乎所有主要 AI 产品方向。字节今年10月还推出了能与豆包语音对话的 Ola Friend 耳机,近期还在研发 AI 眼镜。
这样饱和式的研发,一方面能让豆包大模型依托诸多AI应用加速迭代,另一方面则是期待AI硬件终端能拓宽豆包大模型使用场景,进而实现整个“豆包+”产业链闭环。
此外,豆包也在卷场景,以期在应用层面多点开花。
据了解,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。而最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有大幅增长。
可以说,丰富的内部生态、持续的资源投入、庞大的优质数据和应用场景,且都全面接入AI并相互打通,这才是豆包能成为行业“卷王”的秘诀。
二、“百模大战”下半场,开始比拼多模态
自 OpenAI 推出 Sora,让“一句话生成视频”变成可能;谷歌发布 Gemini ,可以泛化并无缝地理解、操作和组合不同类型的信息,国内主要公司就开始陆续跟进、布局视频、音乐、语音等多模态 AI 应用。
例如,今年5月开始,生数科技Vidu、快手可灵、字节即梦、智谱清影、商汤Vimi等都相继发布文生视频模型;9月,MiniMax正式发布视频模型video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布MiracleVision大模型完成视频生成能力的升级;到了11月,腾讯混元大模型正式上线视频生成能力,月之暗面旗下Kimi则被爆出正在内测AI视频生成功能“Kimi创作空间”……多模态的“多”正在成为新的发展方向。
通过腾讯元宝APP-AI应用-AI视频即可使用该功能 图源:腾讯优图实验室
而此次火山引擎发布的豆包·视觉理解模型,据介绍,主要能力包括:
- 更强的内容识别能力:不仅可以识别出图像中的物体类别、形状等基本要素,还能理解物体之间的关系、空间布局以及场景的整体含义。
- 更强的理解和推理能力:不仅能更好地识别内容,还能根据所识别的文字和图像信息进行复杂的逻辑计算。
- 更细腻的视觉描述能力:可以基于图像信息,更细腻地描述图像呈现的内容,还能进行多种文体的创作。
继 GPT-4 在语言方向的里程碑式突破之后,业界普遍认为“视觉”是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息,未来的大模型也应该充分利用更多种类的感官,以此探索实现 AGI 的路径。
火山引擎总裁谭待也在采访中表示,推出视觉理解模型相当于解锁了一个很大的场景,同过去只有文字对话形式的AI相比,聊天功能与深度推理的、图像视觉理解等能力的融合,能让模型有能力处理好真实世界大量综合性的信息,辅助人类完成一系列复杂工作。
比如,在旅游场景中,帮助游客看外文菜单、讲解照片中建筑的背景知识;在教育场景中,为学生优化作文、科普知识;在办公场景下,除了识别内容,模型还能帮助用户分析图表中的数据关系,处理代码逻辑。
豆包·视觉理解模型教育场景应用案例 图源:火山引擎 Force 大会
此外,火山引擎除了推出视觉理解模型之外,还发布、升级了多个其他模型。比如,豆包通用模型pro已全面对齐GPT-4o;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本接入即梦AI和豆包App……
可以看出,尽管相比于市场同类产品,豆包系列大模型发布的时间并不算早,但一直保持着较快速度的更新,并且将最新能力通过即梦AI、豆包App等应用,迅速开放给了普通用户使用。
而当下,AI 市场关注的重心正逐渐从“大模型”转变到“大模型+”。除了常规的 AI 文本对话类应用,多模态的“多”正在成为新的方向。
三、“应用之战”打响,大模型到了该“验收”的时候
在2024世界人工智能大会上,百度创始人李彦宏在演讲中提到,“2023年国内出现了百模大战,其实造成了社会资源的巨大浪费,尤其是算力的浪费。”的确,无论是技术上的研发成本,还是应用上的运行成本,大模型的成长每一步都少不了真金白银的支持。
在行业回归理性的今天,越来越多的AI企业意识到卷参数量、卷Token数、卷集群规模、卷价格,其实都意义不大,大模型的商业化落地才是最需要关注的问题。
而按终端用户类型,AI大模型的商业模式可分为to C、to B。
- lto C:即面向个人消费者,包括免费和付费订阅模式。免费模式如腾讯元宝、百度的文心一言(3.5版本);付费订阅模式如百度的文心一言(4.0版本)、OpenAI的ChatGPT(4.0版本);
- lto B:即面向企业,包括API调用授权、SaaS模式。API调用授权模式中,企业客户可在自己的应用程序或服务中集成AI功能,通常基于调用次数或数据量来计费,如阿里通义千问、智谱AI;SaaS模式中,大模型企业为客户提供软件服务,客户无需安装和维护软件,如Google Cloud AI。在实际应用中,大模型企业通常混合使用多种商业模式。
当下多模态大模型竞争火热,将带动诸多行业重塑生产环节,势必会在以下几个领域引发新一轮的升级与角逐:
影音创作:当大模型由单模态生成转向多模态生成,AIGC应用降低了专业创作门槛,这将改变影音传媒行业的生产模式,塑造全新内容生产范式,实现创作效率提升、创作空间拓展及作品质量提升的目标。
情绪智能:基于最新的AI模型如GPT-4o和Gemini 1.5 Pro,未来AI陪伴将通过流式语音识别、多模态AI和情感计算等技术极大地提升互动体验。这意味着多模态大模型将赋予机器情感价值,并通过深度分析用户的情感和行为,满足用户的多元化陪伴诉求。
工业智造:未来多模态大模型有望与当前普遍使用的专用小模型互补融合,深度赋能工业制造的各个环节,并随着场景数据的整合和积累,进一步升级感知和理解能力,以满足生产制造中的个性化需求,从而推动工业产业变革。
总之,现如今AI领域的竞争核心,已经从大模型的“有无之战”变成了“应用之战”。在这个阶段里,比拼的不再是宏观概念,而是落地能力和商业化的进展。
随着国内大模型持续迭代与升级,叠加国内GPU供应问题逐步缓解、政策牵引等,国内大模型训推算力需求有望逐步释放,这不仅将为大模型的落地应用进一步提速,也将给AI时代带来新的行业机遇。
撰文 | 文 林 编辑 | 杨博丞
本文由人人都是产品经理作者【DoNews】,微信公众号:【DoNews】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!