速递|李飞飞 World Labs 推出首个 AI 系统—— 生成从图片到可交互的 3D 场景
李飞飞创业的项目交出了第一个产品:一个能从单张照片生成类似游戏 3D 场景的 AI 系统。从效果是功能来看,比所谓的文生图、文生视频强了很多,而且还支持交互修改,是不是元宇宙的世界,就要来了?
李飞飞创立的 World Labs 推出了首个项目 —— 一个能从单张照片生成类似游戏 3D 场景的 AI 系统,其独特性在于支持交互且可以修改。
World Labs 的系统能为场景提供交互效果和动画,例如更改物体的颜色和动态调整背景灯光。
该系统属于一个新兴的 AI 类别——“世界模型”(World Models),许多此类模型可以模拟游戏和 3D 环境,但通常存在伪影和一致性问题。
初创公司 Decart 的 Minecraft 模拟世界模型 Oasis 分辨率较低,并且容易“忘记”关卡布局。
World Labs 在官方博客中提到,目前的大多数生成式 AI 工具生成的是 2D 内容,比如图像或视频,而生成 3D 内容则提升了控制力和一致性。
这将改变我们制作电影、游戏、模拟器以及其他物理世界数字表现形式的方式。
World Labs 的系统将图片转换为可交互和探索的 3D 场景。用户可以通过使用箭头键或 WASD 移动,然后单击并拖动鼠标来探索这些 AI 生成的场景。
这些场景在浏览器中实时渲染,并配备可调的模拟景深效果(DoF)。
官网上提供了一个调节景深的滑块,景深效果越强,背景物体就越模糊。
World Labs 的方法确保了生成的场景在生成后保持不变,并遵循基本的物理规律,具有一定的实体感和深度感。
World Labs 还支持模拟推拉变焦,同时调整摄像机的位置和视野:
World Labs 还提到,大多数生成模型预测的是像素,而预测 3D 场景则具有许多优势:
- 持久的现实感:一旦生成了一个世界,它会保持稳定。如果你暂时离开视线,然后再回来,场景不会发生变化。这种持久性提供了更连贯的体验,避免了传统生成模型中场景不一致的情况。
- 实时控制:在生成场景后,用户可以实时在场景中自由移动。例如,你可以停下来仔细观察一朵花的细节,或者绕过一个角落,看看背后隐藏了什么。这种实时互动使场景更具沉浸感和探索性。
- 正确的几何结构:World Labs 生成的世界遵循 3D 几何的基本物理规则。这些场景具有实体感和深度感,与某些 AI 生成视频的梦幻性质形成对比,更贴近现实体验。
深度图是将 3D 场景投影到二维空间的一种方式,它通过像素的颜色深浅来表达物体的远近。
例如,离摄像机较近的像素可能被显示为亮色,而较远的像素则为暗色。这种方式直观地展示了场景的三维空间结构,为开发者和用户理解场景的深度和布局提供了重要工具。
通过这些特性,World Labs 的技术为生成式 AI 3D 场景奠定了坚实基础,并大幅提升了内容的交互性、真实性和一致性。
最后,World Labs 还展示了一条视频,作者 Brittani Natali 将 World Labs 的技术与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相结合的工作流程。
本文由人人都是产品经理作者【江天 Tim】,微信公众号:【有新Newin】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
3D生成方面的创新还是第一次见噢,能完善到如此,厉害厉害。
World Labs 的技术在3D场景生成和交互性方面提供了显著的优势,特别是在持久性、实时控制和正确的几何结构方面。