垂类模型丨3D视频，那些赶超Sora的初创公司

“爱诗科技将集中人力和资源，在三到六个月内赶超Sora目前水平。”

“生数科技今年年内能达到OpenAI的Sora目前版本的效果。”

”魔珐科技具有行业最顶尖3D虚拟人以及3D内容AIGC能力，最新产品有言对3D视频的编辑能力是Sora所达不到的。“

美国公司OpenAI发布人工智能（AI）文生视频大模型产品Sora不到一个月，中国的AI创业公司宣布新一轮融资，发布新的产品，目标直指赶超Sora。

Sora：人工智能视频生成的飞跃

一直以来，创建能够建模、理解和模拟现实世界内在复杂性的人工智能一直是一项极其艰巨的挑战。与静态图像不同，视频本质上涉及表示随时间的变化、3D 空间、物理交互、对象的连续性等等。过去的视频生成模型一直难以处理不同的视频时长、分辨率和摄像机角度。更重要的是，这些系统缺乏对现实进行高保真模拟所需的物理、因果关系和物体持久性的内在“理解”。

OpenAI 发布的视频展示了一个比我们在这些领域见过的任何模型都表现更好的模型。这些视频看起来很真实。例如，一个人的头部会遮挡一个标牌，然后再经过它，而标牌上的文字将保持原来的状态。Sora 生成的视频表明该模型对三维世界具有非凡的理解。正如技术报告中所述，Sora 展示了新兴的模拟功能，这些功能的出现对 3D 对象和环境没有任何明确的归纳偏差。

🖼️

图片 2 1080 × 553px

📷 图片包含在完整版文章中，点击文末按钮查看

Sora的AI视频背后的技术原理

在OpenAI公布的技术报告中，解释了Sora的技术原理，两种模型架构是其中关键：一是广泛用于大语言模型的Transformer；另一个是Diffusion，广泛用于图片生成模型，例如OpenAI自研的图片生成模型DALL-E和业界广泛采用的开源模型Stable Diffusion，都是Diffusion模型。Sora结合了这两大模型，自称为Diffusion Transformer模型。

在Sora之前，Pika和Runway等初创公司已经基于Diffusion的模型架构来生成视频。不过，Pika仅支持生成一段3秒的视频，Runway公测版本视频时长也仅为4秒，网页版最长则支持18秒视频生成，而Sora生成视频可达60秒。OpenAI指出，Diffusion可以帮助复现视频的内容，但有许多限制——能接受的数据素材类别少，生成的视频时长短、视频的大小也固定，比如只能是256x256分辨率的4秒视频。

🖼️

图片 3 1080 × 868px

📷 图片包含在完整版文章中，点击文末按钮查看

Sora也使用了Diffusion模型，但在实现逻辑上，没有用之前常见的U-Net架构，而选择了Transformer，因为后者兼容并蓄，能消化各类不同格式的视频素材，大大增加了生成内容的时长和细节。

AI文生视频的局限性

在当前的AI技术发展阶段，虽然取得了显著进步，但在视频内容创作领域仍面临着一系列挑战和难点。这些挑战主要集中在以下几个方面：

1. 时空一致性问题：即使最先进的模型，如Sora，在单一场景或镜头的理解上有所提升，但当涉及多场景或跨时间轴的内容生成时，保持人物、镜头和场景的时空一致性仍然是一个难题。这意味着AI难以完整理解和应用现实世界的物理和时间规律，从而影响内容的连贯性和真实感。

2. 内容的可控性和可编辑性：对于内容创作者来说，能够精确控制内容的各个方面（如场景细节、灯光、人物形象、对白等）是基本需求。当前，虽然AI可以辅助生成创意内容，但在以下方面仍存在限制：

3. 视频时长的限制：虽然技术进步使得生成的视频长度从几秒延长到了一分钟，但要生成完整且具有实用价值的视频内容，时长仍然是一个挑战。长视频需要复杂的结构和内容安排，这超出了当前AI技术的能力范围。

4. 产品完整性：从创作者的角度看，理想的AI工具应该提供一站式服务，覆盖从内容创作到后期制作的全过程，包括编辑镜头、调整动作、后期包装等。当前，创作者往往需要在多个工具之间切换以完成整个创作过程，这不仅增加了工作量，也影响了创作效率。

综上所述，尽管AI技术在视频内容创作领域展现出巨大潜力，但为了满足创作者对时空一致性、内容可控性、视频时长和产品完整性的需求，仍需要克服上述挑战。未来的技术发展将需要专注于提高模型的理解能力、增强内容的可控性和编辑能力，以及扩展生成内容的时长和提升产品的完整性，以更好地服务于内容创作领域。

AI视频的未来：文生AIGC 3D

解决当前AI视频的局限性的方案之一就是文生3D内容，将生产的视频和现实世界的视频制作流程对应起来，模拟现实世界中真实物理环境。

3D 模型是物理对象或场景的数字表示，具有三个维度：高度、宽度和深度。它们可以使用 Blender、Maya 或 SketchUp 等软件手动创建，也可以使用摄影测量等技术自动创建，其中包括从不同角度拍摄一个物体的多张照片并将它们拼接在一起。 3D 模型可以渲染成 2D 图像或视频，或者使用 VR 耳机或全息图等特殊设备在 3D 环境中显示。

将生成式 AI 应用于 3D 工作流程，零售、娱乐、建筑、汽车和医疗保健等行业正在开启一个充满可能性的新世界。 AI 快速分析数据并生成具有逼真纹理和材质的复杂 3D 模型，使工程师和设计师能够在数字环境中制作原型并测试概念，从而减少对物理原型的需求并加快开发过程。这不仅节省了时间和资源，而且还促进了更多迭代和创新的设计方法。在医疗领域，3D 模型带来了个性化治疗提高了患者护理和手术精度。

根据硅谷科技评论（svtr.ai）数据库，在AI+3D视频领域，有7家公司值得关注，其中海外4家，国内3家。

📊

数据表格包含在完整版文章中

https://webcache.googleusercontent.com/search?q=cache:https://medium.com/@mikeyoung_97230/how-sora-actually-works-23da050ef3f2

https://www.yeschat.ai/blog-Unveiling-Sora-OpenAIs-Groundbreaking-3D-Video-Generation-Model-4082