分享

Sora (文生视频)模型产业链全景梳理

 rwm1110 2024-02-20 发布于新疆
图片
查行业数据,就用行行查

🕒  欢迎至网站探索:www.hanghangcha.com
图片

戳这里,查看近期热门行业

👉🏻多模态AI产业链全景梳理
👉🏻算力租赁产业格局梳理
👉🏻华为昇腾:国产算力王者
👉🏻人形机器人:AI下一波浪潮
👉🏻虚拟数字人全景解析理
👉🏻华为鸿蒙产业链全景图
👉🏻AIPC产业链全景梳理
👉🏻VisionPro产业链深度解析
👉🏻数据要素产业链全景梳理
👉🏻液冷服务器产业格局全景解析

图片
近期,OpenAI 发布旗下首个 AI 视频生成模型—Sora 模型。Sora 能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。
此外,Sora还展示了AI在理解和模拟物理世界方面的能力,这被认为是实现通用人工智能(AGI)的关键一步。
OpenAI认为,视频生成模型是构建通用物理世界模拟器的一条有前景的道路,它使人工智能理解和模拟运动中的物理世界,迈向了一个新的高度,Sora文生视频模型有望成为实现 AGI 的重要里程碑。
Sora 发布视频展现物理世界模拟能力:
图片资料来源:OpenAI 官网

01

什么是文生视频?

文生视频大模型是一种能够由 AI 生成视频内容的大型机器学习模型。
文生视频基于用户的自然语言描述准确地生成相应视频内容。以用户给出的文本、 图像、音频、视频等内容作为提示(prompt),模型能够处理并结合用户提供的内容,创造 出完全自主生成或拓展的视频。这些模型通常基于深度学习,尤其是自然语言处理(NLP)、计算机视觉(CV)和语音识别(ASR)等技术的融合。
以OpenAI官方发布的范例视频为例,输入提示词:“一位时尚的女士漫步在东京街头,街上充满了温暖的霓虹灯和 生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手中提着一个黑色手提包。她戴着太阳镜,涂着红色口红。走路时自信而随意。街道潮湿且反光,形成了彩色灯光的 镜面效果,许多行人来来往往。”
Sora 生成 1 分钟视频示例:
图片
资料来源:OpenAI 官网
2023年实际诞生的文生视频大模型达到数十个,全球用户数量超过百万级 别,但目前多数视频模型仍处于产品早期阶段。
2024 年各大公司加快了文 生视频模型的研发步伐。
Midjourney 宣布将在未来几个月加快训练文生视频模型;随后谷歌推出文生视频模型Lumiere。Lumiere模型的推出,进一步展示了谷歌在文生视频技术上的深厚实力。该模型不仅具备高度智能化的文本解析能力,还能根据文本内容自动生成与之相匹配的视频画面,实现了真正意义上的“文本到视频”的转化。

国内字节跳动和腾讯也分别公布了视频模型MagicVideoV2与VideoCrafter2。从创作端看,市场上已公开的大多数模型出自初创公司和小型技术开发团队,包括Runaway、Pika 等,且目前已呈现较为可观的完成效果和商业模式。预计随着科技大厂产品的发布,后续相关产品生态将持续繁荣。

02

什么是Sora?

Sora是一个在可变持续时间、分辨率、宽高比的视频和图像上联合训练的文本条件扩散模型。
该模型将自然语言处理技术与视频生成技术相结合,并通过使用大量带有相应文本字幕的视频进行训练。其机理是从静态噪声开始,通过多个步骤逐渐去除噪声,最终生成清晰视频。
Sora利用了 DALL·E3的重新标注技术,为视觉 训练数据生成高度描述性的说明文字,与 GPT 模型类似,Sora 使用 Transformer 架构,扩展性强大。
OpenAI声称,如果给定一段简短或详细的描述或一张静态图片,Sora 就能生成类似电影的1080p场景,其中包含多个角色、不同类型的动作和背景细节。
图片

与此前的视频生成模型相比,Sora 主要实现了以下突破:
视频时长达到 60 秒:Sora 目前可以根据文本要求生成 60s 的连贯视频,并保持视频主体与背景的高度流畅性与稳定性。
文本的深度理解能力:Sora可以准确理解用户的文本指令,无论是复杂的动作 场景还是细腻的情感表达,Sora 都能够精确捕捉并展现。
对真实世界的理解:生成的视频除满足了文本要求的主题、要素外,Sora 对物理规律的遵循程度较高,对于光影反射、运动 方式、镜头移动等细节的呈现效果较为逼真,都展示了极高的质量。
根据OpenAI官方介绍,目前Sora具备生成包括多个角色、特定类型的运动、准确细节的 主体和复杂场景的能力。同时,还能够创建多个镜头,模拟复杂的摄像机运镜效果,使得 生成的视频更加生动。
3D一致性:Sora可以生成摄像机动态运动的视频。随着摄像机的移动和旋转,人物和场景元素在3D空间中的移动会保持一致。
Sora 生成动态运动视频示例:
图片
资料来源:OpenAI 官网

Sora 可以向前向后拓展视频,连接视频。可以使用Sora 在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。
Sora 及之前部分可比产品对比:
图片资料来源:Open AI,Pika,澎湃新闻,银河证券

03

Sora(文生视频)模型产业链梳理


Sora 的横空出世,有望带动产业新一轮的景气度,进一步激发市场对 AI 产业持续创新能力。
Sora模型产业链涵盖了数据收集与处理、模型训练与开发、部署与应用、硬件与云服务以及产业链上下游企业等多个环节。
AI模型的训练需要大量数据,包括文本、图像、视频等多种形式。这些数据需要经过收集、清洗、标注等处理,以满足模型训练的需求。
在收集到足够的数据后,需要进行模型的训练。这个过程需要大量的计算资源,包括高性能计算机、GPU、TPU等。同时,还需要专业的AI算法工程师进行模型的设计、调优等工作。
在B端,Sora文生视频模型,可以广泛应用于影视制作、动画制作、游戏开发、音乐教育等领域。AI视频可以大幅度降低视频的制作成本,对应用领域将有可观的降本增效作用,供给端有望加速推进。
此外,AI模型的运行需要强大的硬件支持,包括高性能计算机、服务器,以及算力租赁服务等。

Sora 支持在生成视频过程中加入图片提示:

图片

图片资料来源:Open AI

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多