OpenAI再次先声夺人，中国人工智能创新路在何方？

天承办公室 2024-03-08 发布于北京

展开全文

2024年2月16日，又是一个AI发展史上值得铭记的时刻。在ChatGPT，GPT voice等技术震惊世界之后。OpenAI又放出了新的黑科技——Sora。仅短短几天时间，在世界范围内又一次引发了市场和舆论的狂欢。

简而言之，Sora是截至目前为止最强的视频生成模型。可以根据文本指令创建逼真和富有想象力的场景，复杂的视角运动以及逼真的角色，时长更是突破性的达到60秒。从此之后，通过一段描述生成你想要的视频不再是痴人说梦。

Sora模型生成的视频

前言：又一次领跑的OpenAI

与ChatGPT所属的对话机器人这一领域不同，文生视频领域一向被认为是较为困难的方向，学界和业界在此之前的积累并没有很多。如Runway Gen 2、Pika等视频生成相关模型与工具，仅能生成特定的视觉类别，或是分辨率更短且固定的视频。一次生成通常只有几秒，同时质量相当一般，甚至几乎可以忽略它们的存在。

但Sora则完全不一样，它能够生成分钟级别的视频，拥有电影级的运镜。它可以进行一镜到底或者非常平滑的镜头切换，视频中的人物、背景，以及事物细节，都保持了惊人的连续性与稳定性。

其分辨率与清晰度也达到了令人惊叹的水平。OpenAI放出来的视频中展示的人脸部分肤质，水面倒影与反光等，都肉眼可见的精致，细节、色彩让人印象深刻。同时，Sora生成的视频也拥有较好的3D一致性，甚至可以考虑作为数字世界的物理模拟器。

在OpenAI官网上也放出了生成视频所用的prompt，基本上所描述的内容都在视频中都有具体地呈现。也就是说，Sora对文本语义的还原与模型的可控性上也达到了较高的水平。

同时从生成的视频结果可以看出来，Sora能够较好地保持生成视频的长期连续性和物体持久性，有效模拟短期和长期的依赖关系。同样，它能在一个样本中生成同一角色的多个镜头，确保其在整个视频中的外观一致。

并且Sora还可以输入视频，对视频进行一定的变换与编辑。也可以输入图片，从图片+prompt进一步的生成扩展视频。可以说，这就是视频的ChatGPT时刻。在视频生成领域，OpenAI又一次完成从0到1的突破。

技术：Sora的技术原理

目前为止，OpenAI已经放出了Sora的技术报告。但报告中透露的信息有限，大多数的技术细节还隐藏在迷雾中。

可以观察出来的是，OpenAI并没有对物理规则进行显式的建模。大体上应该是使用了Video Encoder+Diffusion Transformer+3D positional embedding Transformer Decoder的架构。

其中可能的模式是，先通过视频编码器（Video Encoder）把视频压缩成向量，再切成patch。这里可以简单理解patch为图片的一部分，就像拼图的碎片一样。把若干连续的一段片段patch在时间上组合起来就是patchs。

然后再通过diffusion transformer进行编码与学习。从引用上来看可能参考了Scalable Diffusion Models with Transformers(DiT)的原理。而DiT+3D position embedding相对于先前的UNet有一个重要的优势，那就是可以无缝兼容任意分辨率、时长，从而使得模型对训练数据不会那么挑剔，能够更好地增大模型训练的数据量。

传统的diffusion transformer主要是对于图片进行学习，这里应该进行了特定优化，改造成了针对视频的类型，并且由于视频的特性，对长序列做了一定的优化，长序列的上下文窗口猜测可能达到近100K左右。

Sora的主要作者曾在先前的著名计算机视觉会议（ICCV）上发表过一篇工作，也是通过结合diffusion model和transformer，从而达到scale up model来提升图像生成质量的效果，这篇文章在OpenAI的报告中也被引用到了。所以猜测相关的技术脉络可能有一定的承袭，毕竟从图像到视频的技术迁移也非常的常见。

而Decoder 部分猜测使用了VAE一样的方式，即使用与encoder部分相似的模型，把transformer输出的向量再转化为视频。

先前DiT的研究着重放在了模型的简单（适应不同大小不同分辨率的视频）与可扩展性，也因此有人根据相关的研究猜测Sora可能最终也只有3B左右的参数量级。当然，笔者本身对视频生成相关的了解较浅。上述方案只是结合了一些分析的猜测。如有错漏还望海涵。

Sora生成的视频图片

总的来说，Sora通过学习大量数据，获得了非常强的视频生成的能力，甚至可以模拟一些物理规律和与世界的交互。比如在输入Minecraft相关文本时，模型能生成非常真实的 Minecraft 游戏视频，对于一些光暗，物理运动方面的变化，Sora已经能学到一些物理层面的规律。

当然，Sora还处于比较简陋的阶段。其生成的视频还有诸多的不协调之处，就如同最早期文生图模型总是会把人物的手画得非常抽象一样。比如在视频中有很多神奇的错误。如OpenAI放出的一个幼狼相关的视频，幼狼在视频中不断分裂生成，还有一些篮球相关的视频产生了穿模。一些视频的细节部分也存在问题，椅子凭空出现，人物的手与四肢不协调等等。

如果挑刺的话其实也还是能找出许多问题，说明Sora与工业化生成视频应该还有一定的距离。但这并不是说OpenAI的工作没有意义。其核心意义在于帮助人们探明了视频生成这条路是能够走通的，成功地将视频生成这条路的难度从零拉到了接近可用的水平。同时，OpenAI也再次证明了自身在AI领域中的领导地位。

启发：AI需要长期主义

OpenAI和相应AI领域的快速进步无疑是极富冲击性的。但是从普通人的角度，也无需过度焦虑。及时获取信息，提高自己的知识水平，努力学习即可。

现阶段绝大多数的AI工具还都脱离不了人，很多模型的稳定性和可控性都还不尽如人意。大多数还是聚焦于更好的辅助人类进行生产和生活。无论是代码生成工具还是图像生成工具，虽然都降低了相应行业的生产门槛，但总体来说，如果需要较为专业的内容，仍然依赖专业人员进行矫正与创作。

普通人更无需因所谓的一众营销号卖课文案而感到压力，比如Sora刚出来几天的时候，甚至连模型细节都只透露了只言片语，就有人大言不惭开始以此为主题宣传卖课。不由得让人戏称，人工智能最好的落地方式就是变现卖课，毕竟过于要脸还怎么赚钱呢？

这也侧面表明了我国当下环境存在的一些问题，国内在一些时候更倾向于追求容易变现和回报较快的项目。当然这也可能是我国本身还处于发展中的水平有关。一些需要长期投入的有价值的事情推动起来就比较困难。一方面，判断一件事长期投入之后有足够的价值回报这件事本身是需要独到的眼光和见识的。另一方面，这些事情本身投入成本巨大，既需要足够的资金，也需要足够的毅力来坚持到曙光。

我国在前两年也不是没有一些大模型方向的探索，也获得了一定的积累和成果。但可能在短期内看不到收益后就偃旗息鼓，望洋兴叹了，这不由得让人扼腕叹息。

从某种程度讲，AI学术界也需要研究和思考OpenAI的成功。尽管有着算力和标注资源之类的限制，学术研究也的确不应该完全去迎合工业界，着重追求产出和直接收益，但很多时候由于学术界更倾向于做一些“玩具”性质的工作，长期处于追求低资源（小型数据集，少量GPU）和易产出论文的状态，忽视很多时候真实场景下存在的问题。过于追求优雅和干净，对大规模训练，数据质量与数据中组织之类的脏问题认识也不足。这导致AI领域连续几次突破都是反向由工业界引领向前。

很多时候AI都被认为仅仅只是力大砖飞，但是现如今拥有大量算力的团队也已经有了不少，为什么OpenAI这块砖飞了起来，而许多其他的团队砖飞的还差那么点意思呢？这都是值得思考的问题。是因为Open AI拥有大量的算力和标注，具备黑科技？亦或者是他们确实把某些工程上被大家所忽视的问题通过更合理的方式解决了？诸如此类，这一系列设计AI创新的基本问题、机制问题，还有待国内技术和政策研究者的进一步厘清解决。

应对：AI追赶，刻不容缓

客观来说，Sora的诞生重要性更多还是体现在前沿探索而非实际生产上。至少在当下，LLM等模型相关技术还没有足够强大，许多场景下对用户提供的效率帮助还比较有限，整体推理的成本与耗时也都比较高。新技术革命，无论中美，大家需要走的路都还很漫长。特别是我国，还有盘桓在头上的芯片与显卡这一问题需要攻关，更有待各界进一步努力。

然而从现实角度看，Sora在此时的发布在技术之前，首先就成为了一场舆论事件。当下无论国内还是国外，无论是具体的各产业领域还是社会舆论，对中美的全方位竞争都高度关注。因此Sora的文生视频技术迭代一经发布，立刻又引发了新一波对中美竞争和国际关系格局的讨论。

未来如何，可能谁也讲不清楚，但唯有努力拼搏和向上，才有可能有更多的选择权。立足于产业竞争、大国竞争的视角来看，中美两国AI企业间的较量，一方面关系着人工智能领域的技术发展、标准主导、范式引领，决定着未来产业的“话事权”，另一方面也同样影响着全行业乃至全社会的士气民心。

自22年以来的“中国崛起见顶论”甚嚣尘上，海外一些媒体舆论反复宣扬之下已经给我国的经济社会和国内外贸易造成了实际影响，加之美国辅以技术封锁，对我国相关行业进行系统性压制，“中国崛起见顶论”甚至在某些层面上成了反复循环论证的理论。此时，Sora的发布借着美国资本市场超强的包装和宣传能力，仿佛成了又一件宣告中美AI竞争结局、美国大获全胜的事件。

面对这样的形势，一方面我们需要从技术原理上厘清Sora这些先进大模型的技术原理，不盲目陷入恐慌，要客观认识到美国本身就处于信息科技领域的领头地位，还拥有全球的硬件产业链作为后盾，在相应的方向领跑全球也很正常。我们也无需妄自菲薄，认清差距和现实，分析自己的缺点和优势，埋头苦干即可。全球的AI相关产业除了中国和美国外，基本上也找不出来同等体量的第三名选手。

而另一方面，我国科技企业，特别是技术、人才和资金储备雄厚的巨头，如华为、腾讯、字节等，更需咬紧牙关、勠力向上，发挥其资源上的优势，大兵团作战的组织优势，为我国的人工智能行业技术进步打通新的道路。

腾讯混元大模型

AI，特别是LLM和AIGC相关的领域，因为其领域特性，既需要大量的算力设备（海量的GPU集群），也需要人多高端人才和人力物力（数据标注，分布式训练集群架构，算法研究人员和系统开发人员），也因此更适合具备长期积累的大型科技公司或者巨型独角兽来领头进行突破。

比如国内华为的盘古大模型，在气象预报、药物分子预测、自动驾驶等垂直领域都有亮眼的能力；腾讯的混元大模型，本身依托于腾讯云作为基础设施的强大支持，也拥有国内一流梯队的NLP相关工程师，在场景应用中具有较为优异的表现；还有百度的文心一言，阿里的通义千问，百川智能的百川大模型，智谱的GLM系列，深度求索的deepseek等等，这些大模型在纯文本，代码生成和传统的图文多模态领域都有着不俗的性能。