看了Sora，感觉短视频要悬了！

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

北冥乘海生

2024-02-22

0 评论 4837 浏览 8 收藏

13 分钟

Sora其实并不单是文生视频，它其实是一个世界模型。在3D内容的生成成本被大模型拉下来以后，真正应该瑟瑟发抖的，正是现在如火如荼的短视频世界。

Sora发布也不少天了，按说，作为一名二手科学家，咱也得蹭热度聊聊。可是看着各路自媒体花式的震惊、反思和卖课，我有点不知所措，这都是扯啥呢？

我对这些不感兴趣，不过，那几段demo视频撸了一遍又一遍，再想起在MSRA做AI时的一些经历，我有点醒攒儿了：您还真以为这东西是为了帮大家水视频用的么？不是！照这个路数下去，以视频为主的社交网络媒介形式，可能要被连锅端了！

这并非危言耸听，咱们先从大家热议的“世界模型”说起。

一、“世界模型”到底是啥

看了Sora，您有什么最深切的感受？我在撸了九九六十四遍以后，突然感到有点毛骨悚然：与Runway、Pika那些竞品“帕金森”风格的视频相比，这些视频里的物理结构，也太TM稳定真实了！

您看看下面这段无人机穿越大斗兽场遗迹的视频：所有的建筑物几何结构，全程没有扭曲、没有变型、没有坍塌。

再看看这段咖啡杯里的海盗船视频，多么流畅自然的流体运动！一点儿也看不出跟我们熟悉的物理规律不符之处！做过计算机图形学的都知道，水、雾、风这些非刚体的运动画面模拟，那是多么困难的任务。

这说明了什么？Sora绝不是在二维框里做建模，把像素生成出来了事！它一定是通过大模型，对世界和物体的三维形态、运动规律有了统计意义上的理解，并且具备了不错的泛化能力。然后，将它再投射回二维平面中，得到一段视频的。这就是我理解的“世界模型”。当然，这里的投射，是通过大模型的推理，而非传统的CG渲染。

也就是说，Sora脑子里的世界，是三维的、立体的、运动的。而平面的视频框，其实限制了它的表达力！

不信，您看看下面这段demo，同一个场景，生成了五段多机位下的视频，您说说Sora背后对世界的理解，能是一个框一个框分别往里填的么？

那位说了，你扯这些有卵用？我管Sora背后咋看世界的，反正最后不还是生成一段视频么！这么想，格局真的小了！既然它脑子里的世界是立体的，那就存在对现有的短视频形态降维打击的可能！

二、Sora真正的颠覆意义

世界模型有啥用？对短视频有啥影响？这跟得从前些日子的另一个热点产品说起——苹果的VisionPro。

这东西，酷倒是挺酷，但是目前很难普及。因为，VR世界对内容的巨大渴求，靠传统的3D内容生产方式，根本就满足不了！

生产3D内容的经典方法，是参数建模：建模师在电脑上进行参数和特征输入，生成对应的模型对象，简单理解就是在电脑上“捏泥人”。“泥人”是捏出来了，但是一颦一笑极其僵硬，跟提线木偶戏一样。而且，弄一个模型，得累死两个设计师。

有没有简单自然点的方法？动作捕捉。像下图这样，演员穿着一身数字盔甲，完成一串动作，再通过计算机视觉和运动模型完成3D内容生产。可是这成本依然很高，没设备你还玩不了。

有没有高科技一点的方法呢？看过超级碗(superbowl)的朋友应该知道，人家转播时有个“全视角回放”，这是咋弄的呢？简单来说，就是在比赛场地360度无死角安一堆高清摄像头，再基于几何拼接重建3D视频。当年，我在微软研究院上班时，当时的院长沈向洋博士，就对这项技术有不少贡献。

那么现在有了Sora，情况有什么根本变化呢？再也不用架那么多摄像机，无死角地捕捉图像用于拼接了！从演示来看，大模型见过的东西太多，已经有了类似于人类的泛化能力：咱们看到金字塔的正面，背面是啥样大概也能猜出来，大模型对各种概念、物体得形态和细节的把握，也接近这个程度了。那您想想，将来3D内容的生产，是不是只要几张照片、一两个摄像头，交给世界模型自个脑补，就搞定了？如此一来，3D内容的爆发也就不远了，您说这玩意有没有用？

有人跟我抬杠：我没有Vision Pro，就一个手机，3D内容有啥意义呢？其实，手机这样的平面媒介上，三维内容也好玩，而且有用！

比如您要买房，网站上要是有VR看房，能在房子里转悠的，是不是内部情况一览无余？这比对着图片和视频脑补方便多了吧！再比如电商购物，想换个沙发，对着干巴巴的图文越看越眼晕。可是现在，电商网站的部分产品有了3D物品展示功能，是不是跟去线下实体店看沙发差不多了？

所以说，如果您还认为Sora只是高效生成视频的工具，那么只能说格局小了。视频，本来就是Sora世界模型的副产品。未来，算力更强大，模型更完善，它可以真正实现低成本、高还原度地提供三维内容，这才是颠覆性的新场景！

将来，房产销售随手拍几张照片，就可以生成流畅的VR看房模型，或者再虚拟装修一些生成演示视频；导演拿相机拍几张分镜图，完整的3D电影片段就自动生成出来了。

等VR世界的内容大规模爆发的那一天，长腿小姐姐可以绕着你跳舞了，不坐飞机就能漫游吴哥窟了，甚至人人都可以根据自己的想象，创造出有趣的场景和物品让人观赏。您想想，这是不是比二维世界里的短视频，要声色犬马、纸醉金迷得多？在荒淫娱乐方面，一向觉悟甚高的人民群众，会选择哪个、抛弃哪个，您心里没点数么？

所以，在3D内容的生成成本被大模型拉下来以后，真正应该瑟瑟发抖的，正是现在如火如荼的短视频世界。

三、普通人的机会在哪里

本来，聊到这儿就该收尾了，但是老有些焦虑的同行来问：AI这么牛逼了，我们还有出路么？所以再多说两句。

先说说影视、游戏、广告这些创意行业。Sora的出现，带来了很大的想象空间。现在，只要给一段文字描述，或几张图片，就可以自动生成一条视频素材。但是，目前来看，要在商业领域大规模应用，还要有点“最后一公里”的工具。

这是因为，大模型还不能很好的建模因果性和逻辑性较强的场景。比如，这个女子走在大街上的视频，可以看到她身后的广告牌和店铺招牌都是鬼符，而第二个视频里，杯子打碎的情况明显违反物理规律。因此，实用中，必须要有一个视频修改和元素替换的AI工具，解决品牌形象植入，文字和形象替换等问题，才能得到真正有用的素材。当然，我觉得这工具很快就会有的。