Sora （文生视频）模型产业链全景梳理

rwm1110 2024-02-20 发布于新疆

展开全文

查行业数据，就用行行查

🕒 欢迎至网站探索：www.hanghangcha.com

戳这里，查看近期热门行业

👉🏻多模态AI产业链全景梳理

👉🏻算力租赁产业格局梳理

👉🏻华为昇腾：国产算力王者

👉🏻人形机器人：AI下一波浪潮

👉🏻虚拟数字人全景解析理

👉🏻华为鸿蒙产业链全景图

👉🏻AIPC产业链全景梳理

👉🏻VisionPro产业链深度解析

👉🏻数据要素产业链全景梳理

👉🏻液冷服务器产业格局全景解析

近期，OpenAI 发布旗下首个 AI 视频生成模型—Sora 模型。Sora 能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。

此外，Sora还展示了AI在理解和模拟物理世界方面的能力，这被认为是实现通用人工智能（AGI）的关键一步。

OpenAI认为，视频生成模型是构建通用物理世界模拟器的一条有前景的道路，它使人工智能理解和模拟运动中的物理世界，迈向了一个新的高度，Sora文生视频模型有望成为实现 AGI 的重要里程碑。

Sora 发布视频展现物理世界模拟能力：

资料来源：OpenAI 官网

01 什么是文生视频？

文生视频大模型是一种能够由 AI 生成视频内容的大型机器学习模型。

文生视频基于用户的自然语言描述准确地生成相应视频内容。以用户给出的文本、图像、音频、视频等内容作为提示（prompt），模型能够处理并结合用户提供的内容，创造出完全自主生成或拓展的视频。这些模型通常基于深度学习，尤其是自然语言处理（NLP）、计算机视觉（CV）和语音识别（ASR）等技术的融合。

以OpenAI官方发布的范例视频为例，输入提示词：“一位时尚的女士漫步在东京街头，街上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手中提着一个黑色手提包。她戴着太阳镜，涂着红色口红。走路时自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果，许多行人来来往往。”

Sora 生成 1 分钟视频示例:

资料来源：OpenAI 官网

2023年实际诞生的文生视频大模型达到数十个，全球用户数量超过百万级别，但目前多数视频模型仍处于产品早期阶段。

2024 年各大公司加快了文生视频模型的研发步伐。

Midjourney 宣布将在未来几个月加快训练文生视频模型；随后谷歌推出文生视频模型Lumiere。Lumiere模型的推出，进一步展示了谷歌在文生视频技术上的深厚实力。该模型不仅具备高度智能化的文本解析能力，还能根据文本内容自动生成与之相匹配的视频画面，实现了真正意义上的“文本到视频”的转化。

国内字节跳动和腾讯也分别公布了视频模型MagicVideoV2与VideoCrafter2。从创作端看，市场上已公开的大多数模型出自初创公司和小型技术开发团队，包括Runaway、Pika 等，且目前已呈现较为可观的完成效果和商业模式。预计随着科技大厂产品的发布，后续相关产品生态将持续繁荣。

02 什么是Sora？

Sora是一个在可变持续时间、分辨率、宽高比的视频和图像上联合训练的文本条件扩散模型。

该模型将自然语言处理技术与视频生成技术相结合，并通过使用大量带有相应文本字幕的视频进行训练。其机理是从静态噪声开始，通过多个步骤逐渐去除噪声，最终生成清晰视频。

Sora利用了 DALL·E3的重新标注技术，为视觉训练数据生成高度描述性的说明文字，与 GPT 模型类似，Sora 使用 Transformer 架构，扩展性强大。

OpenAI声称，如果给定一段简短或详细的描述或一张静态图片，Sora 就能生成类似电影的1080p场景，其中包含多个角色、不同类型的动作和背景细节。

与此前的视频生成模型相比，Sora 主要实现了以下突破：

视频时长达到 60 秒：Sora 目前可以根据文本要求生成 60s 的连贯视频，并保持视频主体与背景的高度流畅性与稳定性。

文本的深度理解能力：Sora可以准确理解用户的文本指令，无论是复杂的动作场景还是细腻的情感表达，Sora 都能够精确捕捉并展现。

对真实世界的理解：生成的视频除满足了文本要求的主题、要素外，Sora 对物理规律的遵循程度较高，对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真，都展示了极高的质量。

根据OpenAI官方介绍，目前Sora具备生成包括多个角色、特定类型的运动、准确细节的主体和复杂场景的能力。同时，还能够创建多个镜头，模拟复杂的摄像机运镜效果，使得生成的视频更加生动。

3D一致性：Sora可以生成摄像机动态运动的视频。随着摄像机的移动和旋转，人物和场景元素在3D空间中的移动会保持一致。

Sora 生成动态运动视频示例:

资料来源：OpenAI 官网

Sora 可以向前向后拓展视频，连接视频。可以使用Sora 在两个输入视频之间逐渐插值，在具有完全不同主题和场景构图的视频之间创建无缝过渡。

Sora 及之前部分可比产品对比：

资料来源：Open AI，Pika，澎湃新闻，银河证券

03 Sora（文生视频）模型产业链梳理

Sora 的横空出世，有望带动产业新一轮的景气度，进一步激发市场对 AI 产业持续创新能力。

Sora模型产业链涵盖了数据收集与处理、模型训练与开发、部署与应用、硬件与云服务以及产业链上下游企业等多个环节。

AI模型的训练需要大量数据，包括文本、图像、视频等多种形式。这些数据需要经过收集、清洗、标注等处理，以满足模型训练的需求。

在收集到足够的数据后，需要进行模型的训练。这个过程需要大量的计算资源，包括高性能计算机、GPU、TPU等。同时，还需要专业的AI算法工程师进行模型的设计、调优等工作。

在B端，Sora文生视频模型，可以广泛应用于影视制作、动画制作、游戏开发、音乐教育等领域。AI视频可以大幅度降低视频的制作成本，对应用领域将有可观的降本增效作用，供给端有望加速推进。

此外，AI模型的运行需要强大的硬件支持，包括高性能计算机、服务器，以及算力租赁服务等。

Sora 支持在生成视频过程中加入图片提示：

资料来源：Open AI

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： rwm1110 > 《AI人工智能/算力》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

rwm1110

关注对话

TA的最新馆藏

游资：散户做不大是因为缺这种认知！！--逻辑挖掘社公众号
半导体，飞升成龙！
价值投资不是哪类股的标签，而是好公司足够便宜！
（简单分析一下士兰微）医药股池
2024/06/11(二)花呗哥喜提七天逆回购
【科普文创】头晕是怎么回事

喜欢该文的人也喜欢更多

热门阅读换一换