Sora终于来了，但多模态AI呼唤实用主义

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

Sora终于来了，但多模态AI呼唤实用主义

硅星人

2024-12-15

0 评论 1520 浏览 3 收藏

22 分钟

这篇文章深入探讨了多模态AI技术的现状与未来，特别是在OpenAI发布全新视频生成模型Sora Turbo之后。作者分析了Sora在实际应用中的局限性，指出其在视频时长、生成效果一致性以及指令遵循方面的不足

一、Sora的现实问题

随着ChatGPT等大语言模型的问世，人工智能进入了一个全新的时代。在这股浪潮中，多模态AI技术成为业界竞相追逐的目标，OpenAI的Sora更是将这股热情推向高潮。

等待了299天之后，屡次跳票的Sora终于来了，OpenAI在北京时间12月10日凌晨正式发布了全新视频生成模型Sora Turbo。

然而，从实测的效果来看，Sora的效果并没有带来太多惊喜，无论是在视频时长、生成效果一致性、还是指令遵循方面，都没有明显强于市面上的已有视频模型。

事实上，Sam Altman将Sora比作视频版GPT-1的说法其实暴露了这个项目的尴尬处境。因为GPT-1更像是一种实验性模型，不太适合作为直接可用的生产工具，它主要被用作科研领域的参考。

在投入大量资源和时间后，Sora如果呈现的只是一个概念验证级别的产品，如果真如GPT-1一般需要经过多次迭代以及技术突破才能达到实用水平，那么考虑到视频生成所需的巨大算力投入和数据需求，这种战略选择的成本效益比恐怕令人担忧。

一边用夸张的宣传和神秘感制造期待，一边交出的却是一个并没有多少突破性进展的产品。特别是在2024年末这个时间点，当国内外竞争对手已经通过快速迭代实现了类似水平的效果，这种“落差”的表现略显尴尬。

不可否认，Sora的发布代表了多模态AI技术的重要里程碑。它展现了一个“会预测未来”的AI系统的雏形，让人们对通用人工智能(AGI)的到来充满期待。只不过，这次OpenAI已经不再将Sora称为“世界模拟器”了。

关于Sora的技术局限性的争论由来已久，例如，Sora在生成视频时常出现逻辑错误，如物体运动不符合物理规律、因果关系混乱等问题，现在的Sora Turbo显然也没有解决这一问题。早在年初，Meta首席科学家杨立昆就直言，Sora的生成式技术路线“注定失败”，因为其依赖于大规模数据训练的概率模型，无法真正理解物理世界的因果关系。此外，Sora的生成过程更多是对已有数据的拟合，而非创造新知识，这使其在模拟真实世界方面仍有很长的路要走。

梦想总归要回到现实，除了技术成熟度，Sora在产业化方面还存在诸多挑战：

首先，Sora的训练和应用成本极其高昂。据Factorial Funds估算，如果Sora要大规模应用，还需要约72万片英伟达H100 GPU的支持，这意味着216亿美元的硬件投入。如此天价的算力消耗，让Sora很难在短期内实现商业闭环。

其次，Sora在落地场景方面尚不成熟。尽管Sora已经正式发布，但在效果上离真正的“世界模拟器”差距甚远，现阶段更像是一个玩具而无法成为一个真正实用的创意工具。可以说，Sora离真正的“iPhone时刻”还有相当长的路要走。

就像上世纪60年代的核聚变发电：展示出令人震撼的潜力，吸引了大量投资和顶尖人才，但随着研究深入，技术难度和资源投入却呈指数级增长。虽然每隔几年就有突破性进展的报告，但要实现真正可控、稳定的商业应用，始终像隔着“永远差30年”的距离。

所以，如今的Sora面临这样一个困境：在完美的演示视频背后，是否存在不可逾越的技术瓶颈？这种追求完美视频生成的路径，会不会最终被证明是一个代价高昂的技术死胡同？要将实验室的演示转化为真正有价值的应用，可能比我们想象的要困难得多。

对此，百度创始人李彦宏在最近接受采访时曾表示：“如果真的能够做到任意场景下视频生成，那可能要很长很长时间，而且成本很高。”由此可见，百度并非不重视Sora所代表的技术方向。只是基于务实的判断，选择了另一条路线。

二、“应用驱动”成为第一性原理

与许多厂商专注于打造Sora这样的通用文生视频模型不同，百度智能云的着眼点在于帮助客户实现多模态应用的落地。正如李彦宏所言，“我们更关心怎么帮用户把应用跑起来”。事实上，在众多行业客户的实际场景里，他们真正需要的是在自己的应用中拥有可靠的多模态能力，而不仅仅是一个裸的通用模型。百度智能云深谙此道，通过多年来在多模态领域的深厚积累和大量工程化实践，以更简单快捷、低门槛的方式赋能客户，让多模态应用能够开花。这也是百度暂不直接做Sora，而是聚焦应用落地的重要原因。

不做Sora，并不意味着百度在多模态AI领域缺席。恰恰相反，百度一直在多模态领域有着长期而深厚的积累，只是选择了一条应用驱动的路线。

随着当前大模型性能增长遇到瓶颈，AI正在进入“冷静期”。海外AI巨头从追求AGI转向务实路线，OpenAI尝试转向盈利性商业化运营，谷歌、微软等纷纷聚焦商业变现和产业应用，重点发展To C业务、企业服务和开发者生态。

正如历史上的典型的技术周期：高期望→泡沫→冷静期→务实应用。行业需要从“技术优先”的逻辑切换到“应用优先”的轨道，通过实践中反馈的需求和问题为技术发展指明方向。

那么，什么是“应用驱动”？简而言之，就是从真实应用场景出发，梳理AI落地的关键问题，并聚焦资源予以解决，最终让技术产生实际价值。这有别于动辄“颠覆性创新”、追求酷炫Demo的做法。在李彦宏看来，“我更多希望尽早接触场景及接触应用，看在这个过程当中，到底遇到了什么问题，把这些问题带回来，我们综合一下，看大家遇到的最多的问题，就是我们优先解决的问题。”

这种理念，与当年云计算之于互联网的关系有着异曲同工之妙。回溯历史，正是得益于云计算平台在基础设施层面的支撑，互联网企业才能将更多的精力聚焦在业务创新上，加速用户需求与技术能力的迭代融合，最终催生出一个繁荣的应用生态。

如今，百度智能云正是希望在多模态AI领域扮演这样一个“助推器”的角色。通过在算力、平台、安全等多个维度提供支持，让更多的企业和开发者无需在复杂的模型训练、部署、应用开发上“翻山越岭”，而是专注于挖掘行业需求、打造可用的智能化应用，让多模态AI从实验原型逐步发展为日常工具。

站在这个思路上审视多模态AI，就不难理解百度智能云的战略选择。在多模态AI落地的过程中，有两大关键挑战亟待攻克：一是实现更自然的人机交互，二是提高模型的可控性、尽可能消除幻觉。单纯的视频生成模型虽然看上去很酷，但还难以很好地解决这两大问题。反而是在一些垂直领域，用更简单实在的多模态技术，就能让AI先跑起来。

比如在工业质检领域，结合图像识别和文本描述的多模态系统已经能准确找出产品瑕疵并生成详细的检测报告；又如在医疗影像诊断中，将X光片、CT等图像与病历文本结合分析的方案，已经在多家医院实现规模化应用。这些看似日常的应用，才是AI真正创造价值的开始。

这正是百度多年来在多模态AI领域的投入方向。李彦宏强调，“外界有一种误解就是百度不做Sora，就等于是百度不做多模态。我们非常非常看好多模态，我们也在多模态上有非常长期的多年投入，在真正有应用场景的地方，我们的多模态能力是非常强的。”

三、多模态AI的“地基”

多模态AI的门槛高、难度大，这是业界公认的痛点。各类模态数据的处理、模型训练的调优、推理服务的部署，每一个环节都需要大量的专业知识和工程经验。这无疑阻碍了多模态AI在更广泛行业中的应用。百度智能云是如何支撑多模态技术大规模落地的？

在模型训练层面，百度智能云的百舸计算平台实现了主流多模态大模型的全覆盖，除了支持MLLM、CogvIm2、Qwen2-VL等业界领先的多模态模型，还针对多模态训练的特点提供了一系列优化方案。其中，“多芯混训”可以兼容英伟达、昆仑等多种芯片，充分发挥芯片的异构性能，并能在万卡规模下将两种芯片混合训练下的效率折损控制在5%以内；“长上下文训练”则突破了序列长度的瓶颈，为多模态模型拓展了更广阔的应用空间；“大集群高效训练”的并行策略，进一步提高了多模态训练的效率，使万卡任务上的模型有效训练时长占比达到99.5%、端到端的性能提升30%。

在模型推理方面，百度智能云同样展现了全栈式的优势，百舸适配了各类客户场景，既支持用户自定义镜像部署，满足个性化需求；又能在英伟达、昆仑等异构芯片上实现推理服务，兼顾成本与性能；针对主流的文生图、文生视频、多模态模型，还提供了一系列加速优化方案，通过架构分离、KV Cache、负载分配等一系列加速工作，让长文本推理效率提升了1倍多。

作为一个全栈式开发平台，千帆平台提供了不同层级的开发路径。对于普通AI应用开发者新手，千帆ModelBuilder提供开箱即用的多模态能力，涵盖图像生成、理解、视频生成等热门领域。用户只需调用API接口，即可实现多模态交互，无需理会背后复杂的模型结构和训练过程。除此之外，千帆AppBuilder作为企业级应用开发平台，可以帮助客户和开发者不断降低应用开发门槛，提供丰富的多模态能力，包括文生图、图像内容理解等图片处理组件，短语音识别、短文本在线合成等语音处理组件以及数字人功能等，同时可实现多渠道对外集成分发，满足更丰富的应用需求场景。

对于追求定制化的企业用户，千帆提供灵活的定制化服务。用户可利用平台的数据处理、模型训练、推理优化等工具，构建匹配自身业务场景的多模态解决方案，支持从数据处理到模型训练的全流程开发。平台还集成了主题模型库，覆盖智能客服、数字人、知识管理等热门领域，帮助用户快速搭建行业性多模态应用。

具体来看，千帆平台提供了非常全面、灵活的多模态服务方案。如果客户需要直接使用多模态大模型，可以在千帆上一键调用包括百度文心一格、Stable Difusion、Vidu等在内的主流模型，覆盖从文生图、文生视频到图像理解等多个应用领域。如果客户希望定制化训练和微调专属多模态大模型，搭建个性化应用，千帆平台同样提供强有力的算力和工具支持。

无论是复杂模型的训练，还是大规模推理能力的实现，云服务都在背后扮演着关键角色。通过提供这些基础设施服务，百度智能云帮助开发者和企业更专注于应用创新，而不必过多关注底层技术细节。

除此之外，百度智能云还将多模态能力进一步沉淀到行业解决方案和产品中。比如在工业领域，打造了“一见”视觉大模型平台；在智能客服场景，提供多模态对话能力；在数字人领域，实现了文生3D视频。可以说，百度智能云的多模态服务已经渗透到各行各业的关键生产力环节，以更贴近需求的方式帮助企业提质增效。

四、不做Sora，是为了更多的Sora

在百度智能云支撑下，越来越多的创新企业与开发者已经汇聚于此，借“他山之石”，砌筑自己的“高楼”。

生数科技就是其中的典型代表。这家致力于多模态大模型研发的明星企业，在百度百舸平台的加持下，推出了国内首个纯自研的视频大模型Vidu。通过百舸平台超强的容错能力和训练加速能力，生数科技将Vidu训练素材渲染加速效率提升了3倍，数据拉取效率更是提升了51倍，可以说，百度为这个“国产Sora”的诞生提供了坚实的算力保障。

类似的案例还有哇嘶嗒(VAST)，这家3D-AIGC领域的佼佼者同样将百度智能云视为AI创新的“压舱石”。其面世的3D内容创作工具“Tripo”备受全球瞩目，被称为3D领域的“GPT-4”。而这一切的背后，正是百舸平台在算力、成本、工程化等方面的全方位赋能，帮助VAST快速构建起强大AI基础设施，获得成熟的AI工程化能力。

当然，多模态AI生态的触角远不止于内容创作领域。以光魔科技为例，这家企业就瞄准了AIGC平台的普惠化。在百度智能云视频解决方案以及百舸平台的加持下，光魔科技推出的“白日梦AI”实现了一键式的文生视频能力，让每个普通用户都能“编出”专属影片，已经拥有大量忠实拥趸。

除了聚焦前沿技术的创业公司，百度智能云还在为百胜中国这样的“传统巨头”提供服务。依托百度智能云的大模型能力和智能客服解决方案，这家餐饮巨头打造了特色AI客服系统。该系统能够关联上下文、精准识别客户真实意图，提供更好的售后服务支持，同时还能辅助人工客服快速总结诉求、优化服务流程。这为百胜中国节省了大量客服成本，同时又提升了用户满意度。

由此可见，百度智能云正以其“地基”般的算力支持、有梯度的开发平台，为整个多模态AI生态提供源源不断的“能量”，在未来孵化了出更多的“Vidu”、“Tripo”，乃至更多的“Sora”。

五、“解决问题的AI”

对比云计算对互联网产业的变革，以AWS为例，它不仅改变了企业的IT基础设施，更重要的是催生了新的商业模式和创新企业生态。进入AI时代，多模态AI代表了人工智能从专项能力到综合认知的重要跃升，这种突破不仅体现在技术维度的拓展，更反映在应用范式的转变上。

AWS的AI时代的实践同样提供了一个很好的观察样本：在传统AI开发中，需要针对特定问题进行精心设计和训练。但在生成式AI时代，AWS认为成功的产品化之路不应局限于单一模型的性能竞争，而是要着眼于更广阔的技术组合与应用场景，更多强调“降本增效”、“实用”的AI。

技术永远只是手段而非目的本身。多模态AI正在重构传统的价值链条，这个过程中的关键在于如何将技术创新转化为可落地的解决方案，使不同规模、不同行业的企业都能找到适合自身的数字化转型路径。

特别值得关注的是，不同于过往依赖单一技术平台的垂直整合，新一代AI基础设施更强调开放协作。这种模式使得不同规模、不同行业的企业都能找到适合自身的数字化转型路径，从而让AI成为真正能够解决问题的AI。从这个角度来看，百度智能云和AWS显然站在同一战线上：通过构建开放、灵活的AI基础设施，降低技术使用门槛，让AI真正服务于产业创新。